Elementi consigliati per la progettazione di una strategia di avvisi e monitoraggio affidabile

Articolo
01/15/2025

Si applica a questa raccomandazione dell'elenco di controllo di affidabilità Well-Architected Power Platform:

RE:08	Misura e pubblica gli indicatori di integrità della soluzione. Acquisisci continuamente dati sui tempi di attività e altri dati sull'affidabilità provenienti dall'intero carico di lavoro e anche da singoli componenti e flussi chiave.

Questa guida descrive gli elementi consigliati per la progettazione e una strategia di avviso e monitoraggio affidabile. Implementa questa strategia per tenere informati i tuoi team operativi sullo stato di integrità del tuo ambiente e assicurarti di soddisfare gli obiettivi di affidabilità stabiliti per il tuo carico di lavoro.

Definizioni

Termine	Definizione
Metrica	Valori numerici raccolti a intervalli regolari. Le metriche descrivono alcuni aspetti di un sistema in un momento particolare.
Log delle risorse	Dati che un sistema genera sullo stato del sistema.
Tracce	Dati che forniscono informazioni sul percorso seguito da una richiesta attraverso servizi e componenti.

Strategie di progettazione chiave

Prima di creare una strategia di monitoraggio e avviso, esegui le seguenti attività per il tuo carico di lavoro come parte della pianificazione dell'affidabilità:

Identificazione di flussi critici e non critici.
Esecuzione dell'analisi della modalità di errore per i tuoi flussi
Identificazione degli obiettivi di affidabilità.
Progettazione di una solida strategia di test

Crea una strategia di monitoraggio e avviso per sensibilizzare i tuoi team operativi in modo che siano informati sui cambiamenti nelle condizioni del carico di lavoro e possano risolvere rapidamente i problemi. Il modello di integrità per i flussi critici e per i carichi di lavoro che includono flussi critici dovrebbe definire stati integri, compromessi e non integri. Progetta lo stato di monitoraggio per rilevare immediatamente i cambiamenti in questi stati. Quando lo stato di salute passa da integro a compromesso o non integro, i meccanismi di allerta dovrebbero attivare misure di recupero automatiche e allertare i team responsabili.

Implementa i seguenti elementi consigliati per progettare una strategia di monitoraggio e avviso che soddisfi i requisiti della tua azienda.

Guida generale

Differenza tra metriche, log e tracce.

Abilita la registrazione per tutte le risorse cloud. Utilizza l'automazione e la governance nelle tue distribuzioni per abilitare la registrazione diagnostica in tutto l'ambiente.

Inoltra tutti i log di diagnostica a un sink di dati centralizzato e a una piattaforma di analisi, come area di lavoro Log Analytics. Se hai requisiti di sovranità dei dati regionali, devi utilizzare i sink di dati locali nelle aree geografiche soggette a tali requisiti.

Compromesso: esistono implicazioni di costi per i registri di query e story. Tieni presente che l'analisi e la conservazione dei log influiscono sul budget e determinano il miglior equilibrio di utilizzo per soddisfare i requisiti.

Se i tuoi carichi di lavoro sono soggetti a uno o più framework di conformità, anche alcuni log dei componenti che gestiscono informazioni sensibili sono soggetti a tali framework. Invia i log dei componenti pertinenti a un sistema di informazioni sulla sicurezza e gestione eventi (SIEM), come Microsoft Sentinel.

Creare criteri di conservazione dei log che incorporano i requisiti di conservazione a lungo termine che i framework di conformità impongono al carico di lavoro.

Usare la registrazione strutturata per tutti i messaggi di log per ottimizzare l'esecuzione di query sui dati di log.

Configurare gli avvisi da attivare quando i valori superano le soglie critiche correlate a una modifica dello stato del modello di integrità, ad esempio da verde a giallo o rosso. La configurazione della soglia è una procedura di miglioramento continuo. Man mano che il carico di lavoro si evolve, le soglie definite potrebbero cambiare.

È consigliabile usare gli avvisi quando gli stati migliorano, ad esempio da rosso a giallo o rosso a verde, in modo che i team operativi possano tenere traccia di questi eventi per riferimento futuro.

Visualizzare l'integrità in tempo reale dell'ambiente usando dashboard personalizzate.

Usare i dati raccolti durante gli incidenti per migliorare continuamente i modelli di integrità.

Incorporare servizi di monitoraggio e avvisi della piattaforma cloud, tra cui l'integrità a livello di piattaforma.

Incorporare funzionalità di monitoraggio e analisi avanzate predefinite offerte dal provider di servizi cloud, ad esempio glistrumenti di informazioni di Monitoraggio di Azure.

Implementare il monitoraggio di ripristino e backup per l'acquisizione:

Lo stato della replica dei dati per garantire che il carico di lavoro raggiunga il ripristino all'interno dell'obiettivo del punto di ripristino di destinazione (RPO).
Backup e ripristini riusciti e non riusciti.
Durata del ripristino per informare la pianificazione del ripristino di emergenza.

Monitorare le applicazioni e gli agenti

Registra i dati durante l'esecuzione dell'applicazione o dell'agente nell'ambiente di produzione. Sono necessarie informazioni sufficienti per diagnosticare la causa dei problemi nello stato di produzione.

Registrare gli eventi in base ai limiti del servizio. Includere un ID di correlazione che passi attraverso i limiti di servizio. Se una transazione passa attraverso più servizi e uno di essi ha esito negativo, l'ID di correlazione consente di tenere traccia delle richieste nell'applicazione e di individuare il motivo per cui la transazione non è riuscita.

Separa la registrazione dell'applicazione e dell'agente dal controllo. I record di controllo vengono comunemente conservate per soddisfare i requisiti di conformità o normativi e devono essere complete. Per evitare transazioni interrotte, mantenere i log di controllo separati dai log di diagnostica.

Usa il monitoraggio white box per fornire gli strumenti all'applicazione o all'agente con log semantici e metriche. Raccogli metriche e log a livello di applicazione e agente, ad esempio il consumo di memoria o la latenza delle richieste, dall'applicazione o dall' agente per informare un modello di integrità e per rilevare e prevedere i problemi.

Usare il monitoraggio black box per misurare i servizi della piattaforma e l'esperienza del cliente risultante. Il monitoraggio della scatola nera verifica il comportamento dell'applicazione o dell'agente visibile esternamente senza conoscere i componenti interni del sistema. Questo approccio è comune per misurare gli indicatori a livello di servizio (SLI) incentrati sui clienti, gli obiettivi del livello di servizio e i contratti di servizio.

Monitorare i dati e l'archiviazione

Monitorare le metriche di disponibilità dei contenitori di archiviazione. Quando questa metrica scende al di sotto del 100%, indica errori di scrittura. L'eliminazione temporanea della disponibilità può verificarsi quando il provider di servizi cloud gestisce il carico. Tieni traccia delle tendenze di disponibilità per determinare se si verifica un problema con il carico di lavoro. In alcuni casi, un calo delle metriche di disponibilità per un contenitore di archiviazione indica un collo di bottiglia nel livello di calcolo associato al contenitore di archiviazione.

Esistono molte metriche da monitorare per i database. Nel contesto dell'affidabilità, le metriche importanti da monitorare includono:

Durata delle query
Timeout
Tempi di attesa
Utilizzo elevato della memoria
Blocchi

Facilitazione di Power Platform

Power Platform si integra con Application Insights, che fa parte dell'ecosistema Monitoraggio di Azure. Puoi utilizzare questa integrazione per:

Iscriviti per ricevere la telemetria acquisita dalla piattaforma Dataverse in Application Insights sulla diagnostica, le prestazioni e le operazioni eseguite dalle applicazioni nel database Dataverse e all'interno delle app basate su modello. Questa telemetria fornisce informazioni che puoi utilizzare per diagnosticare e risolvere i problemi relativi a errori e prestazioni.
Connetti le tue app canvas a Application Insights per utilizzare queste analisi per diagnosticare problemi, capire cosa fanno effettivamente gli utenti con le tue app, prendere decisioni aziendali migliori e migliorare la qualità delle tue app.
Configura la telemetria di Power Automate sul flusso in Application Insights. Puoi utilizzare questa telemetria per monitorare le esecuzioni del flusso cloud e creare avvisi per gli errori di esecuzione del flusso cloud.
Acquisisci i dati di telemetria dall'Microsoft Copilot Studio agente per usarli in Application Insights di Azure. Puoi usare questi dati di telemetria per monitorare i messaggi e gli eventi registrati inviati a e dal tuo agente, gli argomenti da attivare durante le conversazioni utente e gli eventi di telemetria personalizzati che possono essere inviati dai tuoi argomenti.

Il log delle risorse di Power Platform nel portale di conformità di Microsoft Purview. La maggior parte degli eventi sono disponibili entro 24 ore dall'attività. Non utilizzare queste informazioni per il monitoraggio in tempo reale. Per ulteriori informazioni sulla registrazione delle attività in Power Platform, vedi:

Il tuo carico di lavoro di Power Platform può includere le risorse di Azure. Per ulteriori informazioni su elementi consigliati per il monitoraggio per le risorse di Azure, vedi Elementi consigliati per la progettazione e la creazione di un sistema di monitoraggio.

Lo starter kit CoE di Power Platform è un'implementazione di riferimento che contiene una raccolta di componenti e strumenti che ti consentono di iniziare a sviluppare una strategia per l'adozione e il supporto di Power Platform. Il kit fornisce automazione e strumenti per aiutare i team a implementare il monitoraggio e l'automazione necessari a supportare un CoE.

Come verifico l'integrità dei servizi online?

Elenco di controllo per l'affidabilità

Fai riferimento alla serie completa di elementi consigliati.

Elenco di controllo per l'affidabilità

Condividi tramite

Elementi consigliati per la progettazione di una strategia di avvisi e monitoraggio affidabile

Strategie di progettazione chiave

Guida generale

Monitorare le applicazioni e gli agenti

Monitorare i dati e l'archiviazione

Facilitazione di Power Platform

Elenco di controllo per l'affidabilità

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Elementi consigliati per la progettazione di una strategia di avvisi e monitoraggio affidabile

Strategie di progettazione chiave

Guida generale

Monitorare le applicazioni e gli agenti

Monitorare i dati e l'archiviazione

Facilitazione di Power Platform

Informazioni correlate

Elenco di controllo per l'affidabilità

Commenti e suggerimenti

Risorse aggiuntive