Consigli per l'esecuzione dell'analisi della modalità di errore

Articolo
10/16/2024

Si applica a questa raccomandazione della checklist di affidabilità ben progettata: Power Platform

RE:03	Utilizza l'analisi della modalità di guasto (FMA) per identificare e dare priorità ai potenziali guasti nei componenti della soluzione. Esegui la FMA per valutare il rischio e l'effetto di ciascuna modalità di guasto. Determina il modo in cui il carico di lavoro risponde e si ripristina.

Questa guida descrive le procedure consigliate per eseguire l'analisi della modalità di errore (FMA) per il carico di lavoro. L'analisi della modalità di errore è la procedura per identificare potenziali punti di errore all'interno del carico di lavoro e dei flussi associati e pianificare le azioni di mitigazione di conseguenza. In ogni fase del flusso, identifichi il raggio d'azione di più tipi di errore, in modo da poter a progettare un nuovo carico di lavoro o a eseguire il refactoring di un carico di lavoro esistente per ridurre al minimo la diffusione degli errori.

Secondo un principio fondamentale dell'analisi della modalità di errore, gli errori possono verificarsi indipendentemente dal numero di livelli di resilienza applicati. Gli ambienti più complessi sono esposti a più tipi di errori. Considerata questa realtà, l'analisi della modalità di errore consente di progettare il carico di lavoro per resistere alla maggior parte dei tipi di errori e ripristinarlo senza problemi quando si verifica un errore.

Se ignori del tutto l'analisi della modalità di errore o esegui un'analisi incompleta, il tuo carico di lavoro è a rischio di comportamenti imprevisti e potenziali interruzioni causate da una progettazione non ottimale.

Definizioni

Termine	Definizione
Modalità di errore	Un tipo di problema che può causare il degrado o il danneggiamento grave di uno o più componenti del carico di lavoro fino al punto di non essere più disponibili.
Mitigazione	Le attività che hai identificato per affrontare i problemi in modo proattivo o reattivo.
duplicati	Processi e procedure di monitoraggio e avviso di dati e app.

Strategie di progettazione chiave

Nel contesto dell'analisi della modalità di errore, comprendere i prerequisiti è cruciale. Inizia con la revisione e l'implementazione di consigli per identificare i flussi, assegnando loro la priorità in base alla criticità. Gli artefatti dei dati svolgono un ruolo fondamentale nel descrivere i percorsi dei dati all'interno di questi flussi. Mentre approfondisci l'approccio dell'analisi della modalità di errore, concentrati sulla pianificazione dei componenti per i flussi critici, sull'identificazione delle dipendenze (sia interne che esterne) e sull'elaborazione di strategie di mitigazione.

Prerequisiti

Rivedi e implementa i consigli per identificare e valutare i flussi. Si presuppone che tu abbia identificato e assegnato la priorità ai flussi utente e di sistema in base alla criticità.

I dati che hai raccolto e gli artefatti che hai creato nel tuo lavoro ti forniscono una descrizione concreta dei percorsi dei dati coinvolti nei flussi. Per avere successo nella tua attività di analisi della modalità di errore, l'accuratezza e la completezza dei tuoi artefatti sono fondamentali.

Approccio dell'analisi della modalità di errore

Dopo aver determinato i flussi critici, è possibile pianificare i componenti richiesti. Successivamente, segui ogni flusso passo dopo passo per identificare le dipendenze, inclusi servizi di terze parti e potenziali punti di errore, e pianificare le tue strategie di mitigazione.

Scomporre il carico di lavoro

Quando si passa dall'ideazione alla progettazione, è necessario identificare i tipi di componenti necessari per supportare il carico di lavoro. Il tuo carico di lavoro determina i componenti necessari che devi pianificare.

Dopo aver creato la progettazione iniziale dell'architettura, puoi sovrapporre i flussi per identificare i componenti discreti utilizzati in tali flussi e creare elenchi o diagrammi di flusso di lavoro che descrivono i flussi e i relativi componenti. Per comprendere la criticità dei componenti, utilizza le definizioni di criticità che hai assegnato ai flussi. Considera l'effetto di un malfunzionamento di un componente sui tuoi flussi.

Identificare le dipendenze

Identifica le dipendenze del carico di lavoro per eseguire l'analisi del singolo punto di errore. La scomposizione del carico di lavoro e i flussi sovrapposti forniscono informazioni dettagliate sulle dipendenze interne ed esterne al carico di lavoro.

Le dipendenze interne sono componenti nell'ambito del carico di lavoro necessari per il funzionamento del carico di lavoro. Le dipendenze interne tipiche includono API o soluzioni di gestione di segreti/chiavi come Azure Key Vault. Per queste dipendenze, acquisisci i dati sull'affidabilità, come i contratti di servizio di disponibilità e i limiti di scalabilità. Le dipendenze esterne sono componenti richiesti esterni all'ambito del carico di lavoro, come un'altra applicazione o un servizio di terze parti. Le dipendenze esterne tipiche includono soluzioni di autenticazione, come Microsoft Entra ID e l'infrastruttura di Power Platform.

Identifica e documenta le dipendenze nel tuo carico di lavoro e includile negli artefatti della documentazione del flusso.

Punti di errore

Nei flussi critici del carico di lavoro, considera ciascun componente e determina in che modo tale componente e le relative dipendenze potrebbero essere interessati da una modalità di errore. Ricorda che esistono molte modalità di errore da considerare quando si pianifica la resilienza e il ripristino. Qualsiasi componente può essere interessato da più di una modalità di errore in un dato momento. Queste modalità di errore includono:

Interruzione a livello di area: un'intera area Power Platform o Azure non è disponibile
Interruzione del servizio: uno o più servizi Power Platform o Azure non sono disponibili
Denial-of-service distribuito (DDoS) o altri attacchi dannosi
Configurazione errata di app o componenti
Errore dell'operatore
Interruzione della manutenzione pianificata
Sovraccarico dei componenti

Considera la probabilità di ciascun tipo di modalità di errore. Alcuni sono molto improbabili, come le interruzioni multizona o multiregione, e l'aggiunta di una pianificazione di mitigazione oltre la ridondanza non è un buon uso di risorse e tempo.

Mitigazione

Le strategie di mitigazione rientrano in due grandi categorie: creazione di maggiore resilienza e progettazione per prestazioni degradate.

La creazione di maggiore resilienza significa garantire che la progettazione della tua applicazione segua le procedure consigliate per la durabilità; ad esempio, suddividendo le applicazioni monolitiche in app e microservizi isolati e utilizzando configurazioni di resilienza fornite dalla piattaforma, come i criteri di ripetizione. Per altre informazioni, vedi Consigli per la ridondanza e Consiglia per l'autoconservazione.

Per progettare prestazioni ridotte, identifica potenziali punti di errore che potrebbero disabilitare uno o più componenti del flusso ma non disabilitare completamente quel flusso. Per mantenere la funzionalità del flusso end-to-end, potrebbe essere necessario reindirizzare uno o più passaggi ad altri componenti o accettare che un componente guasto esegua una funzione, in modo che la funzione non sia più disponibile nell'esperienza utente. Per tornare all'esempio dell'applicazione e-commerce, un componente guasto come un microservizio potrebbe far sì che il tuo motore di consigli non sia disponibile, ma i clienti possono comunque cercare prodotti e completare la transazione.

È inoltre necessario pianificare la mitigazione delle dipendenze. Le forti dipendenze svolgono un ruolo critico nel funzionamento e nella disponibilità dell'applicazione. Se sono assenti o presentano un malfunzionamento, potrebbero esserci effetti significativi. L'assenza di dipendenze deboli potrebbe influire solo su funzionalità specifiche e non influire sulla disponibilità complessiva. Questa distinzione riflette il costo per mantenere la relazione di elevata disponibilità tra il servizio e le sue dipendenze. Classifica le dipendenze come forti o deboli per identificare quali componenti sono essenziali per l'applicazione.

Se l'applicazione ha dipendenze forti senza le quali non può funzionare, gli obiettivi di disponibilità e ripristino di queste dipendenze dovrebbero essere in linea con gli obiettivi dell'applicazione stessa. Se il ciclo di vita dell'applicazione è strettamente collegato al ciclo di vita delle sue dipendenze, l'agilità operativa dell'applicazione potrebbe essere limitata, in particolare per le nuove versioni.

duplicati

Il rilevamento degli errori è essenziale per garantire l'identificazione corretta dei punti di errore nell'analisi e la pianificazione adeguata delle strategie di mitigazione. Il rilevamento in questo contesto comporta il monitoraggio dell'infrastruttura, dei dati e dell'applicazione e l'avviso in caso di problemi. Automatizza il più possibile il rilevamento e crea ridondanza nei processi operativi per garantire che gli avvisi vengano sempre rilevati e ricevano una risposta abbastanza rapida da soddisfare i requisiti aziendali. Per ulteriori informazioni, vedi Consigli per il monitoraggio.

Risultato

Per il risultato della tua analisi, crea una serie di documenti che comunichino in modo efficace i tuoi risultati, le decisioni che hai preso in merito ai componenti del flusso e alla mitigazione e l'effetto dell'errore sul carico di lavoro.

Nella tua analisi, dai la priorità alle modalità di errore e alle strategie di mitigazione che hai identificato in base alla gravità e alla probabilità. Utilizza questa definizione delle priorità per concentrare la documentazione su quelle modalità di errore che sono comuni e sufficientemente gravi da giustificare l'impiego di tempo, impegno e risorse per la progettazione di strategie di mitigazione. Ad esempio, potrebbero esserci alcune modalità di errore molto rare in termini di insorgenza o rilevamento. La progettazione di strategie di mitigazione attorno ad essi non vale il costo.

Fai riferimento alla tabella di esempio per un punto di partenza della documentazione.

Durante il tuo esercizio di analisi della modalità di errore iniziale, i documenti che produrrai saranno per lo più di pianificazione teorica. I documenti di analisi della modalità di errore devono essere rivisti e aggiornati regolarmente per garantire che rimangano aggiornati con il carico di lavoro. I test del caos e le esperienze del mondo reale ti aiuteranno a perfezionare le tue analisi nel tempo.

Esempio

La tabella seguente mostra un esempio di analisi della modalità di errore per un'applicazione di spesa ospitata come app canvas Power Apps con un back-end Microsoft Dataverse e API ospitate in Gestione API per interagire con un sistema di terze parti.

Flusso utente: accesso utente, invio della richiesta di rimborso spese e interazione con il rendiconto spese

Componente	Rischio	Probabilità	Effetto/Mitigazione/Nota	Interruzione
ID Microsoft Entra	Interruzione del servizio	Basso	Interruzione completa del carico di lavoro. Dipendente da Microsoft da porre rimedio.	Completa
ID Microsoft Entra	Configurazione errata	Medio	Gli utenti non possono accedere. Nessun effetto a valle. L'help desk segnala il problema di configurazione al team di identità.	None
Power Apps	Interruzione del servizio	Basso	Interruzione totale per gli utenti esterni. Dipendente da Microsoft da porre rimedio.	Completa
Power Apps	Interruzione regionale	Molto basso	Interruzione totale per gli utenti esterni. Dipendente da Microsoft da porre rimedio.	Completa
Power Apps	Attacco DDoS	Medio	Potenziale interruzione. Microsoft gestisce la protezione DDoS (L3 e L4).	Potenziale interruzione parziale
Dataverse	Interruzione del servizio	Basso	Interruzione completa del carico di lavoro. Dipendente da Microsoft da porre rimedio.	Completa
Dataverse	Interruzione regionale	Molto basso	Il gruppo di failover automatico esegue il failover nell'area secondaria. Potenziale interruzione durante il failover. Obiettivi del tempo di ripristino (RTO) e obiettivi del punto di ripristino (RPO) da determinare durante i test di affidabilità.	Potenziale completo
Dataverse	Attacco dannoso (iniezione)	Medio	Rischio minimo.	Potenziale basso rischio
Gestione API	Interruzione del servizio	Basso	Interruzione totale per gli utenti esterni. Dipendente da Microsoft da porre rimedio.	Completa
Gestione API	Interruzione regionale	Molto basso	Interruzione totale per gli utenti esterni. Dipendente da Microsoft da porre rimedio.	Completa
Gestione API	Attacco DDoS	Medio	Potenziale interruzione. Microsoft gestisce la protezione DDoS (L3 e L4).	Potenziale interruzione parziale
La tua soluzione Power Platform	Configurazione errata	Medio	Le configurazioni errate dovrebbero essere rilevate durante la distribuzione. Se ciò si verifica durante un aggiornamento della configurazione, gli amministratori devono ripristinare le modifiche. L'aggiornamento della configurazione provoca una breve interruzione esterna.	Potenziale interruzione completa

Facilitazione di Power Platform

Power Platform si integra con Application Insights, che fa parte dell'ecosistema Monitoraggio di Azure. Puoi utilizzare questa integrazione per:

Iscriviti per ricevere la telemetria acquisita dalla piattaforma Dataverse in Application Insights sulla diagnostica, le prestazioni e le operazioni eseguite dalle applicazioni nel database Dataverse e all'interno delle app basate su modello. Questa telemetria fornisce informazioni che puoi utilizzare per diagnosticare e risolvere i problemi relativi a errori e prestazioni.
Connetti le tue app canvas a Application Insights per utilizzare queste analisi per diagnosticare problemi, capire cosa fanno effettivamente gli utenti con le tue app, prendere decisioni aziendali migliori e migliorare la qualità delle tue app.
Configura la telemetria di Power Automate sul flusso in Application Insights. Puoi utilizzare questa telemetria per monitorare le esecuzioni del flusso cloud e creare avvisi per gli errori di esecuzione del flusso cloud.
Acquisisci dati di telemetria dal tuo Microsoft Copilot Studio copilota per utilizzarli in Azure Application Insights. Puoi utilizzare questa telemetria per monitorare i messaggi registrati e gli eventi inviati e ricevuti dal tuo copilota, gli argomenti da attivare durante le conversazioni degli utenti e gli eventi di telemetria personalizzati che possono essere inviati dai tuoi argomenti.

Power Platform le risorse registrano le attività nel Microsoft portale di conformità di Purview. La maggior parte degli eventi sono disponibili entro 24 ore dall'attività. Non utilizzare queste informazioni per il monitoraggio in tempo reale. Per ulteriori informazioni sulla registrazione delle attività in Power Platform, vedi:

Elenco di controllo per l'affidabilità

Fai riferimento alla serie completa di elementi consigliati.

Lista di controllo dell'affidabilità

Condividi tramite