Consigli per l'esecuzione dell'analisi della modalità di errore

Si applica a questa raccomandazione dell'elenco di controllo di affidabilità Well-Architected Power Platform:

RE:03 Utilizza l'analisi della modalità di guasto (FMA) per identificare e dare priorità ai potenziali guasti nei componenti della soluzione. Esegui la FMA per valutare il rischio e l'effetto di ciascuna modalità di guasto. Determina il modo in cui il carico di lavoro risponde e si ripristina.

Questa guida descrive le procedure consigliate per eseguire l'analisi della modalità di errore (FMA) per il carico di lavoro. L'analisi della modalità di errore è la procedura per identificare potenziali punti di errore all'interno del carico di lavoro e dei flussi associati e pianificare le azioni di mitigazione di conseguenza. In ogni fase del flusso, identifichi il raggio d'azione di più tipi di errore, in modo da poter a progettare un nuovo carico di lavoro o a eseguire il refactoring di un carico di lavoro esistente per ridurre al minimo la diffusione degli errori.

Secondo un principio fondamentale dell'analisi della modalità di errore, gli errori possono verificarsi indipendentemente dal numero di livelli di resilienza applicati. Gli ambienti più complessi sono esposti a più tipi di errori. Considerata questa realtà, l'analisi della modalità di errore consente di progettare il carico di lavoro per resistere alla maggior parte dei tipi di errori e ripristinarlo senza problemi quando si verifica un errore.

Se ignori del tutto l'analisi della modalità di errore o esegui un'analisi incompleta, il tuo carico di lavoro è a rischio di comportamenti imprevisti e potenziali interruzioni causate da una progettazione non ottimale.

Definizioni

Termine Definizione
Modalità di errore Un tipo di problema che può causare il degrado o il danneggiamento grave di uno o più componenti del carico di lavoro fino al punto di non essere più disponibili.
Mitigazione Le attività che hai identificato per affrontare i problemi in modo proattivo o reattivo.
duplicati Processi e procedure di monitoraggio e avviso di dati e app.

Strategie di progettazione chiave

Nel contesto dell'analisi della modalità di errore, comprendere i prerequisiti è cruciale. Inizia con la revisione e l'implementazione di consigli per identificare i flussi, assegnando loro la priorità in base alla criticità. Gli artefatti dei dati svolgono un ruolo fondamentale nel descrivere i percorsi dei dati all'interno di questi flussi. Mentre approfondisci l'approccio dell'analisi della modalità di errore, concentrati sulla pianificazione dei componenti per i flussi critici, sull'identificazione delle dipendenze (sia interne che esterne) e sull'elaborazione di strategie di mitigazione.

Prerequisiti

Rivedi e implementa i consigli per identificare e valutare i flussi. Si presuppone che tu abbia identificato e assegnato la priorità ai flussi utente e di sistema in base alla criticità.

I dati che hai raccolto e gli artefatti che hai creato nel tuo lavoro ti forniscono una descrizione concreta dei percorsi dei dati coinvolti nei flussi. Per avere successo nella tua attività di analisi della modalità di errore, l'accuratezza e la completezza dei tuoi artefatti sono fondamentali.

Approccio dell'analisi della modalità di errore

Dopo aver determinato i flussi critici, è possibile pianificare i componenti richiesti. Successivamente, segui ogni flusso passo dopo passo per identificare le dipendenze, inclusi servizi di terze parti e potenziali punti di errore, e pianificare le tue strategie di mitigazione.

Scomporre il carico di lavoro

Quando si passa dall'ideazione alla progettazione, è necessario identificare i tipi di componenti necessari per supportare il carico di lavoro. Il tuo carico di lavoro determina i componenti necessari che devi pianificare.

Dopo aver creato la progettazione iniziale dell'architettura, puoi sovrapporre i flussi per identificare i componenti discreti utilizzati in tali flussi e creare elenchi o diagrammi di flusso di lavoro che descrivono i flussi e i relativi componenti. Per comprendere la criticità dei componenti, utilizza le definizioni di criticità che hai assegnato ai flussi. Considera l'effetto di un malfunzionamento di un componente sui tuoi flussi.

Identificare le dipendenze

Identifica le dipendenze del carico di lavoro per eseguire l'analisi del singolo punto di errore. La scomposizione del carico di lavoro e i flussi sovrapposti forniscono informazioni dettagliate sulle dipendenze interne ed esterne al carico di lavoro.

Le dipendenze interne sono componenti nell'ambito del carico di lavoro necessari per il funzionamento del carico di lavoro. Le dipendenze interne tipiche includono API o soluzioni di gestione di segreti/chiavi come Azure Key Vault. Per queste dipendenze, acquisisci i dati sull'affidabilità, come i contratti di servizio di disponibilità e i limiti di scalabilità. Le dipendenze esterne sono componenti richiesti esterni all'ambito del carico di lavoro, come un'altra applicazione o un servizio di terze parti. Le dipendenze esterne tipiche includono soluzioni di autenticazione, come Microsoft Entra ID e l'infrastruttura di Power Platform.

Identifica e documenta le dipendenze nel tuo carico di lavoro e includile negli artefatti della documentazione del flusso.

Punti di errore

Nei flussi critici del carico di lavoro, considera ciascun componente e determina in che modo tale componente e le relative dipendenze potrebbero essere interessati da una modalità di errore. Ricorda che esistono molte modalità di errore da considerare quando si pianifica la resilienza e il ripristino. Qualsiasi componente può essere interessato da più di una modalità di errore in un dato momento. Queste modalità di errore includono:

  • Interruzione a livello di area: un'intera area Power Platform o Azure non è disponibile
  • Interruzione del servizio: uno o più servizi Power Platform o Azure non sono disponibili
  • Denial-of-service distribuito (DDoS) o altri attacchi dannosi
  • Configurazione errata di app o componenti
  • Errore dell'operatore
  • Interruzione della manutenzione pianificata
  • Sovraccarico dei componenti

Considera la probabilità di ciascun tipo di modalità di errore. Alcuni sono molto improbabili, come le interruzioni multizona o multiregione, e l'aggiunta di una pianificazione di mitigazione oltre la ridondanza non è un buon uso di risorse e tempo.

Mitigazione

Le strategie di mitigazione rientrano in due grandi categorie: creazione di maggiore resilienza e progettazione per prestazioni degradate.

La creazione di maggiore resilienza significa garantire che la progettazione della tua applicazione segua le procedure consigliate per la durabilità; ad esempio, suddividendo le applicazioni monolitiche in app e microservizi isolati e utilizzando configurazioni di resilienza fornite dalla piattaforma, come i criteri di ripetizione. Per altre informazioni, vedi Consigli per la ridondanza e Consiglia per l'autoconservazione.

Per progettare prestazioni ridotte, identifica potenziali punti di errore che potrebbero disabilitare uno o più componenti del flusso ma non disabilitare completamente quel flusso. Per mantenere la funzionalità del flusso end-to-end, potrebbe essere necessario reindirizzare uno o più passaggi ad altri componenti o accettare che un componente guasto esegua una funzione, in modo che la funzione non sia più disponibile nell'esperienza utente. Per tornare all'esempio dell'applicazione e-commerce, un componente guasto come un microservizio potrebbe far sì che il tuo motore di consigli non sia disponibile, ma i clienti possono comunque cercare prodotti e completare la transazione.

È inoltre necessario pianificare la mitigazione delle dipendenze. Le forti dipendenze svolgono un ruolo critico nel funzionamento e nella disponibilità dell'applicazione. Se sono assenti o presentano un malfunzionamento, potrebbero esserci effetti significativi. L'assenza di dipendenze deboli potrebbe influire solo su funzionalità specifiche e non influire sulla disponibilità complessiva. Questa distinzione riflette il costo per mantenere la relazione di elevata disponibilità tra il servizio e le sue dipendenze. Classifica le dipendenze come forti o deboli per identificare quali componenti sono essenziali per l'applicazione.

Se l'applicazione ha dipendenze forti senza le quali non può funzionare, gli obiettivi di disponibilità e ripristino di queste dipendenze dovrebbero essere in linea con gli obiettivi dell'applicazione stessa. Se il ciclo di vita dell'applicazione è strettamente collegato al ciclo di vita delle sue dipendenze, l'agilità operativa dell'applicazione potrebbe essere limitata, in particolare per le nuove versioni.

duplicati

Il rilevamento degli errori è essenziale per garantire l'identificazione corretta dei punti di errore nell'analisi e la pianificazione adeguata delle strategie di mitigazione. Il rilevamento in questo contesto comporta il monitoraggio dell'infrastruttura, dei dati e dell'applicazione e l'avviso in caso di problemi. Automatizza il più possibile il rilevamento e crea ridondanza nei processi operativi per garantire che gli avvisi vengano sempre rilevati e ricevano una risposta abbastanza rapida da soddisfare i requisiti aziendali. Per ulteriori informazioni, vedi Consigli per il monitoraggio.

Risultato

Per il risultato della tua analisi, crea una serie di documenti che comunichino in modo efficace i tuoi risultati, le decisioni che hai preso in merito ai componenti del flusso e alla mitigazione e l'effetto dell'errore sul carico di lavoro.

Nella tua analisi, dai la priorità alle modalità di errore e alle strategie di mitigazione che hai identificato in base alla gravità e alla probabilità. Utilizza questa definizione delle priorità per concentrare la documentazione su quelle modalità di errore che sono comuni e sufficientemente gravi da giustificare l'impiego di tempo, impegno e risorse per la progettazione di strategie di mitigazione. Ad esempio, potrebbero esserci alcune modalità di errore molto rare in termini di insorgenza o rilevamento. La progettazione di strategie di mitigazione attorno ad essi non vale il costo.

Fai riferimento alla tabella di esempio per un punto di partenza della documentazione.

Durante il tuo esercizio di analisi della modalità di errore iniziale, i documenti che produrrai saranno per lo più di pianificazione teorica. I documenti di analisi della modalità di errore devono essere rivisti e aggiornati regolarmente per garantire che rimangano aggiornati con il carico di lavoro. I test del caos e le esperienze del mondo reale ti aiuteranno a perfezionare le tue analisi nel tempo.

Esempio

La tabella seguente mostra un esempio di analisi della modalità di errore per un'applicazione di spesa ospitata come app canvas Power Apps con un back-end Microsoft Dataverse e API ospitate in Gestione API per interagire con un sistema di terze parti.

Flusso utente: accesso utente, invio della nota spese e interazione con la nota spese

Componente Rischio Probabilità Effetto/Mitigazione/Nota Interruzione
ID Microsoft Entra Interruzione del servizio Basso Interruzione completa del carico di lavoro. Dipende da Microsoft per la riparazione. Completa
ID Microsoft Entra Configurazione errata Medio Gli utenti non possono accedere. Nessun effetto a valle. L'help desk segnala il problema di configurazione al team di identità. None
Power Apps Interruzione del servizio Basso Interruzione totale per gli utenti esterni. Dipende da Microsoft per la riparazione. Completa
Power Apps Interruzione regionale Molto basso Interruzione totale per gli utenti esterni. Dipende da Microsoft per la riparazione. Completa
Power Apps Attacco DDoS Medio Potenziale interruzione. Microsoft gestisce la protezione DDoS (L3 e L4). Potenziale interruzione parziale
Dataverse Interruzione del servizio Basso Interruzione completa del carico di lavoro. Dipende da Microsoft per la riparazione. Completa
Dataverse Interruzione regionale Molto basso Il gruppo di failover automatico esegue il failover nell'area secondaria. Potenziale interruzione durante il failover. Obiettivi del tempo di ripristino (RTO) e obiettivi del punto di ripristino (RPO) da determinare durante i test di affidabilità. Potenziale completo
Dataverse Attacco dannoso (iniezione) Medio Rischio minimo. Potenziale basso rischio
Gestione API Interruzione del servizio Basso Interruzione totale per gli utenti esterni. Dipende da Microsoft per la riparazione. Completa
Gestione API Interruzione regionale Molto basso Interruzione totale per gli utenti esterni. Dipende da Microsoft per la riparazione. Completa
Gestione API Attacco DDoS Medio Potenziale interruzione. Microsoft gestisce la protezione DDoS (L3 e L4). Potenziale interruzione parziale
La tua soluzione Power Platform Configurazione errata Medio Le configurazioni errate dovrebbero essere rilevate durante la distribuzione. Se ciò si verifica durante un aggiornamento della configurazione, gli amministratori devono ripristinare le modifiche. L'aggiornamento della configurazione provoca una breve interruzione esterna. Potenziale interruzione completa

Facilitazione di Power Platform

Power Platform si integra con Application Insights, che fa parte dell'ecosistema Monitoraggio di Azure. Puoi utilizzare questa integrazione per:

  • Iscriviti per ricevere la telemetria acquisita dalla piattaforma Dataverse in Application Insights sulla diagnostica, le prestazioni e le operazioni eseguite dalle applicazioni nel database Dataverse e all'interno delle app basate su modello. Questa telemetria fornisce informazioni che puoi utilizzare per diagnosticare e risolvere i problemi relativi a errori e prestazioni.

  • Connetti le tue app canvas a Application Insights per utilizzare queste analisi per diagnosticare problemi, capire cosa fanno effettivamente gli utenti con le tue app, prendere decisioni aziendali migliori e migliorare la qualità delle tue app.

  • Configura la telemetria di Power Automate sul flusso in Application Insights. Puoi utilizzare questa telemetria per monitorare le esecuzioni del flusso cloud e creare avvisi per gli errori di esecuzione del flusso cloud.

Il log delle risorse di Power Platform nel portale di conformità di Microsoft Purview. La maggior parte degli eventi sono disponibili entro 24 ore dall'attività. Non utilizzare queste informazioni per il monitoraggio in tempo reale. Per ulteriori informazioni sulla registrazione delle attività in Power Platform, vedi:

Lista di controllo dell'affidabilità

Fare riferimento alla serie completa di raccomandazioni.