Elementi consigliati per la progettazione di una strategia di avvisi e monitoraggio affidabile
Si applica a questa raccomandazione della checklist di affidabilità ben progettata: Power Platform
RE:08 | Misura e pubblica gli indicatori di integrità della soluzione. Acquisisci continuamente dati sui tempi di attività e altri dati sull'affidabilità provenienti dall'intero carico di lavoro e anche da singoli componenti e flussi chiave. |
---|
Questa guida descrive gli elementi consigliati per la progettazione e una strategia di avviso e monitoraggio affidabile. Implementa questa strategia per tenere informati i tuoi team operativi sullo stato di integrità del tuo ambiente e assicurarti di soddisfare gli obiettivi di affidabilità stabiliti per il tuo carico di lavoro.
Definizioni
Termine | Definizione |
---|---|
Metrica | Valori numerici raccolti a intervalli regolari. Le metriche descrivono alcuni aspetti di un sistema in un momento particolare. |
Log delle risorse | Dati che un sistema genera sullo stato del sistema. |
Tracce | Dati che forniscono informazioni sul percorso seguito da una richiesta attraverso servizi e componenti. |
Strategie di progettazione chiave
Prima di creare una strategia di monitoraggio e avviso, esegui le seguenti attività per il tuo carico di lavoro come parte della pianificazione dell'affidabilità:
Identificazione di flussi critici e non critici.
Esecuzione dell'analisi della modalità di errore per i tuoi flussi
Identificazione degli obiettivi di affidabilità.
Progettazione di una solida strategia di test
Crea una strategia di monitoraggio e avviso per sensibilizzare i tuoi team operativi in modo che siano informati sui cambiamenti nelle condizioni del carico di lavoro e possano risolvere rapidamente i problemi. Il modello di integrità per i flussi critici e per i carichi di lavoro che includono flussi critici dovrebbe definire stati integri, compromessi e non integri. Progetta lo stato di monitoraggio per rilevare immediatamente i cambiamenti in questi stati. Quando lo stato di salute passa da integro a compromesso o non integro, i meccanismi di allerta dovrebbero attivare misure di recupero automatiche e allertare i team responsabili.
Implementa i seguenti elementi consigliati per progettare una strategia di monitoraggio e avviso che soddisfi i requisiti della tua azienda.
Guida generale
Differenza tra metriche, log e tracce.
Abilita la registrazione per tutte le risorse cloud. Utilizza l'automazione e la governance nelle tue distribuzioni per abilitare la registrazione diagnostica in tutto l'ambiente.
Inoltra tutti i log di diagnostica a un sink di dati centralizzato e a una piattaforma di analisi, come area di lavoro Log Analytics. Se hai requisiti di sovranità dei dati regionali, devi utilizzare i sink di dati locali nelle aree geografiche soggette a tali requisiti.
Compromesso: ci sono implicazioni sui costi per l'archiviazione e l'interrogazione dei registri. Tieni presente che l'analisi e la conservazione dei log influiscono sul budget e determinano il miglior equilibrio di utilizzo per soddisfare i requisiti.
Se i tuoi carichi di lavoro sono soggetti a uno o più framework di conformità, anche alcuni log dei componenti che gestiscono informazioni sensibili sono soggetti a tali framework. Inviare i registri dei componenti rilevanti a un sistema di informazioni di sicurezza e gestione eventi (SIEM), come Microsoft Sentinel.
Creare criteri di conservazione dei log che incorporano i requisiti di conservazione a lungo termine che i framework di conformità impongono al carico di lavoro.
Usare la registrazione strutturata per tutti i messaggi di log per ottimizzare l'esecuzione di query sui dati di log.
Configurare gli avvisi da attivare quando i valori superano le soglie critiche correlate a una modifica dello stato del modello di integrità, ad esempio da verde a giallo o rosso. La configurazione della soglia è una procedura di miglioramento continuo. Man mano che il carico di lavoro si evolve, le soglie definite potrebbero cambiare.
È consigliabile usare gli avvisi quando gli stati migliorano, ad esempio da rosso a giallo o rosso a verde, in modo che i team operativi possano tenere traccia di questi eventi per riferimento futuro.
Visualizzare l'integrità in tempo reale dell'ambiente usando dashboard personalizzate.
Usare i dati raccolti durante gli incidenti per migliorare continuamente i modelli di integrità.
Incorporare servizi di monitoraggio e avvisi della piattaforma cloud, tra cui l'integrità a livello di piattaforma.
Incorporare funzionalità di monitoraggio e analisi avanzate predefinite offerte dal provider di servizi cloud, ad esempio glistrumenti di informazioni di Monitoraggio di Azure.
Implementare il monitoraggio di ripristino e backup per l'acquisizione:
- Lo stato della replica dei dati per garantire che il carico di lavoro raggiunga il ripristino all'interno dell'obiettivo del punto di ripristino di destinazione (RPO).
- Backup e ripristini riusciti e non riusciti.
- Durata del ripristino per informare la pianificazione del ripristino di emergenza.
Monitorare le applicazioni e i copiloti
Registra i dati mentre l'applicazione o il copilota sono in esecuzione nella produzione ambiente. Sono necessarie informazioni sufficienti per diagnosticare la causa dei problemi nello stato di produzione.
Registrare gli eventi in base ai limiti del servizio. Includere un ID di correlazione che passi attraverso i limiti di servizio. Se una transazione passa attraverso più servizi e uno di essi ha esito negativo, l'ID di correlazione consente di tenere traccia delle richieste nell'applicazione e di individuare il motivo per cui la transazione non è riuscita.
Separare la registrazione delle applicazioni e del copilota dall'audit. I record di controllo vengono comunemente conservate per soddisfare i requisiti di conformità o normativi e devono essere complete. Per evitare transazioni interrotte, mantenere i log di controllo separati dai log di diagnostica.
Utilizzare il monitoraggio white box per strumentare l'applicazione o il copilota con registri semantici e metriche. Raccogliere metriche e registri a livello di applicazione e copilota, come il consumo di memoria o la latenza delle richieste, dall'applicazione o dal copilota per informare un modello sanitario e per rilevare e prevedere i problemi.
Usare il monitoraggio black box per misurare i servizi della piattaforma e l'esperienza del cliente risultante. Il monitoraggio della scatola nera verifica il comportamento delle applicazioni o del copilota visibili dall'esterno, senza conoscere i componenti interni del sistema. Questo approccio è comune per misurare gli indicatori a livello di servizio (SLI) incentrati sui clienti, gli obiettivi del livello di servizio e i contratti di servizio.
Monitorare i dati e l'archiviazione
Monitorare le metriche di disponibilità dei contenitori di archiviazione. Quando questa metrica scende al di sotto del 100%, indica errori di scrittura. L'eliminazione temporanea della disponibilità può verificarsi quando il provider di servizi cloud gestisce il carico. Tieni traccia delle tendenze di disponibilità per determinare se si verifica un problema con il carico di lavoro. In alcuni casi, un calo delle metriche di disponibilità per un contenitore di archiviazione indica un collo di bottiglia nel livello di calcolo associato al contenitore di archiviazione.
Esistono molte metriche da monitorare per i database. Nel contesto dell'affidabilità, le metriche importanti da monitorare includono:
- Durata delle query
- Timeout
- Tempi di attesa
- Utilizzo elevato della memoria
- Blocchi
Facilitazione di Power Platform
Power Platform si integra con Application Insights, che fa parte dell'ecosistema Monitoraggio di Azure. Puoi utilizzare questa integrazione per:
Iscriviti per ricevere la telemetria acquisita dalla piattaforma Dataverse in Application Insights sulla diagnostica, le prestazioni e le operazioni eseguite dalle applicazioni nel database Dataverse e all'interno delle app basate su modello. Questa telemetria fornisce informazioni che puoi utilizzare per diagnosticare e risolvere i problemi relativi a errori e prestazioni.
Connetti le tue app canvas a Application Insights per utilizzare queste analisi per diagnosticare problemi, capire cosa fanno effettivamente gli utenti con le tue app, prendere decisioni aziendali migliori e migliorare la qualità delle tue app.
Configura la telemetria di Power Automate sul flusso in Application Insights. Puoi utilizzare questa telemetria per monitorare le esecuzioni del flusso cloud e creare avvisi per gli errori di esecuzione del flusso cloud.
Acquisisci dati di telemetria dal tuo Microsoft Copilot Studio copilota per utilizzarli in Azure Application Insights. Puoi utilizzare questa telemetria per monitorare i messaggi registrati e gli eventi inviati e ricevuti dal tuo copilota, gli argomenti da attivare durante le conversazioni degli utenti e gli eventi di telemetria personalizzati che possono essere inviati dai tuoi argomenti.
Power Platform le risorse registrano le attività nel Microsoft portale di conformità di Purview. La maggior parte degli eventi sono disponibili entro 24 ore dall'attività. Non utilizzare queste informazioni per il monitoraggio in tempo reale. Per ulteriori informazioni sulla registrazione delle attività in Power Platform, vedi:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform connettori
- Dati prevenzione delle perdite
- Power Platform registri amministrativi
- Dataverse revisione contabile
Il tuo carico di lavoro di Power Platform può includere le risorse di Azure. Per ulteriori informazioni su elementi consigliati per il monitoraggio per le risorse di Azure, vedi Elementi consigliati per la progettazione e la creazione di un sistema di monitoraggio.
Lo starter kit CoE di Power Platform è un'implementazione di riferimento che contiene una raccolta di componenti e strumenti che ti consentono di iniziare a sviluppare una strategia per l'adozione e il supporto di Power Platform. Il kit fornisce automazione e strumenti per aiutare i team a implementare il monitoraggio e l'automazione necessari a supportare un CoE.
Informazioni correlate
Come posso verificare lo stato del mio servizio online?
Elenco di controllo per l'affidabilità
Fai riferimento alla serie completa di elementi consigliati.