Elementi consigliati per la progettazione e la creazione di un sistema di monitoraggio
Si applica a questa raccomandazione della checklist di eccellenza operativa ben progettata: Power Platform
OE:06 | Progetta e implementa un sistema di monitoraggio per convalidare le scelte di progettazione e informa le future decisioni di progettazione e aziendali. Questo sistema cattura ed espone dati di telemetria operativa, metriche e registri emessi dal carico di lavoro. |
---|
Questa guida descrive gli elementi consigliati per la progettazione e la creazione di un sistema di monitoraggio. Per monitorare in modo efficace il carico di lavoro in termini di sicurezza, prestazioni e affidabilità, è necessario un sistema completo con un proprio stack che fornisca la base per tutte le funzioni di monitoraggio, rilevamento e avviso.
Definizioni
Termine | Definizione |
---|---|
Registri | Eventi di sistema registrati. I log possono contenere diversi tipi di dati in formato testo strutturato o in formato libero. Contengono un timestamp. |
Metrica | Valori numerici raccolti a intervalli regolari. Le metriche descrivono alcuni aspetti di un sistema in un momento particolare. |
Strategie di progettazione chiave
Per implementare una progettazione completa del sistema di monitoraggio per il tuo carico di lavoro, segui questi principi fondamentali:
Ove possibile, sfrutta gli strumenti di monitoraggio forniti dalla piattaforma, che in genere richiedono poca configurazione e possono fornire informazioni approfondite sul tuo carico di lavoro, che altrimenti potrebbero essere difficili da ottenere.
Raccogli log e parametri dall'intero stack del carico di lavoro. Tutti i componenti e le risorse con poco codice e code-first devono essere configurati per produrre dati standardizzati e significativi, e tali dati devono essere raccolti.
Archivia i dati raccolti in una soluzione di archiviazione standardizzata, affidabile e sicura.
Elaborare i dati archiviati in modo che possano essere gestiti da soluzioni di analisi e visualizzazione.
Analizzare i dati elaborati per determinare con precisione lo stato del carico di lavoro.
Visualizza lo stato del carico di lavoro in dashboard o report significativi per i team del carico di lavoro e altre parti interessate.
Configura avvisi utilizzabili e altre risposte automatiche a soglie definite in modo intelligente per avvisare i team del carico di lavoro quando si verificano problemi.
Includi sistemi di monitoraggio e avviso nelle pratiche generali di test del carico di lavoro.
Garantisci che i sistemi di monitoraggio e allerta siano oggetto di miglioramento continuo. Il comportamento dell'applicazione e della configurazione in produzione offre opportunità di apprendimento continuo. Incorpora queste lezioni nei progetti di monitoraggio e avviso.
Collega i dati di monitoraggio che raccogli e analizzi al tuo sistema e ai flussi utente per correlare lo stato di integrità dei flussi con i dati e lo stato di integrità generale del carico di lavoro. Analizzare tali dati in termini di flussi aiuta a allineare la tua strategia di osservabilità con il tuo modello sanitario.
Riduci al minimo l'archiviazione di qualsiasi informazione identificabile per garantire il rispetto delle leggi e dei regolamenti. Se hai bisogno di memorizzare informazioni identificabili, quando progetti la tua soluzione assicurati di tenere conto dei requisiti che consentono agli individui di richiedere la cancellazione dei propri dati.
Non registrare mai le password degli utenti o altre informazioni che potrebbero essere utilizzate per commettere frodi sull'identità. Cancella questi dettagli dai dati prima che vengano archiviati. I requisiti normativi potrebbero imporre che le informazioni raccolte per il controllo e la sicurezza debbano essere archiviate e salvate. Anche questi dati sono sensibili e potrebbe essere necessario crittografarli o proteggerli in altro modo per evitare manomissioni.
Dovresti automatizzare il più possibile tutte le funzioni del sistema di monitoraggio e tutte dovrebbero funzionare continuamente, tutto il giorno, tutti i giorni.
Questa pipeline del flusso di lavoro illustra il sistema di monitoraggio:
Raccolta
Dovresti configurare tutti i componenti del carico di lavoro, siano essi con poco codice o componenti code-first o impostazioni della piattaforma come ambienti e policy, per acquisire dati di telemetria ed eventi come registri e metriche.
I log sono utili principalmente per rilevare e indagare sulle anomalie. In genere, i registri vengono prodotti dal componente del carico di lavoro e quindi inviati alla piattaforma di monitoraggio o estratti dalla piattaforma di monitoraggio con automazione.
Le metriche sono utili principalmente per creare un modello di integrità e identificare le tendenze nelle prestazioni e nell'affidabilità del carico di lavoro. Le metriche sono utili anche per identificare le tendenze nel comportamento di utilizzo dei tuoi utenti. Queste tendenze possono aiutare a guidare le decisioni sui miglioramenti dal punto di vista del cliente. In genere, i parametri vengono definiti nella piattaforma di monitoraggio e la piattaforma di monitoraggio e altri strumenti eseguono un sondaggio del carico di lavoro per acquisire i parametri.
Dati sul carico di lavoro
Utilizza l'integrazione pronta all'uso con per raccogliere dati. Application Insights Dopo aver abilitato Application Insights, puoi ottenere una chiara visibilità sugli eventi importanti, sia in tempo reale che cronologicamente.
I registri delle applicazioni supportano il ciclo di vita end-to-end dell'applicazione. La registrazione è essenziale per comprendere come funziona l'applicazione in vari ambienti, quali eventi si verificano e le condizioni in cui si verificano.
Ti consigliamo di raccogliere gli eventi e i log dell'applicazione in tutti i principali ambienti. Separare il più possibile i dati tra gli ambienti utilizzando archivi dati diversi per ogni ambiente, se ciò è pratico. Utilizza i filtri per garantire che gli ambienti non critici non complichino l'interpretazione dei log di produzione. Infine, i log di registro corrispondenti nell'applicazione dovrebbero acquisire un ID di correlazione per le rispettive transazioni.
Infrastruttura e dati di configurazione
Per le risorse dell'infrastruttura nel tuo carico di lavoro, assicurati di raccogliere sia log che parametri. Poiché si tratta di un'offerta PaaS (Platform as a Service), la capacità di acquisire registri relativi all'infrastruttura sottostante potrebbe essere limitata. Power Platform Puoi, tuttavia, acquisire log e analisi sulle modifiche alla configurazione e ai criteri relativi allo stato e agli incidenti del carico di lavoro.
Per quanto possibile, raccogli i log dalla tua piattaforma cloud. Potresti essere in grado di raccogliere log delle attività per la tua sottoscrizione e log di diagnostica per il piano di gestione.
Considerazioni sulle prestazioni
Un'applicazione complessa e altamente scalabile potrebbe generare enormi volumi di dati. La quantità di dati può causare problemi di prestazioni a seconda del livello di dettaglio della traccia a livello di applicazione. La soluzione di telemetria non deve rappresentare un collo di bottiglia e deve essere scalabile man mano che il sistema si espande.
Analisi
Dopo aver raccolto i dati da varie fonti, analizzali per valutare il benessere complessivo del sistema. Per questa analisi, avere una chiara comprensione di:
- Come strutturare i dati in base agli indicatori chiave di prestazione (KPI) e ad altre metriche di prestazione da te definite.
- Modalità di correlazione dei dati acquisiti in diverse metriche e file di registro. Questa correlazione è importante quando si tiene traccia di una sequenza di eventi e può aiutare a diagnosticare i problemi.
Nella maggior parte dei casi, il carico di lavoro avrà componenti diversi e i registri o gli eventi verranno acquisiti in formati o tabelle diversi. Sarà necessario combinare accuratamente i dati per comprendere lo stato generale del carico di lavoro.
Ad esempio, la tua soluzione potrebbe essere composta dai seguenti componenti: Power Platform
- Un'app canvas che consente agli utenti di interagire con i dati
- Un'app basata su modelli che consente agli amministratori di configurare le impostazioni per l'applicazione
- Un flusso cloud che esegue operazioni sui dati
- Un'istanza che memorizza i dati associati all'operazione Dataverse
- Una funzione di Azure che recupera i dati dall'archiviazione delle tabelle di Azure e viene chiamata dall'applicazione
I dati di utilizzo per una singola operazione aziendale potrebbero coprire tutti i componenti del carico di lavoro. Queste informazioni devono essere correlate per fornire una visione complessiva dell'utilizzo delle risorse e dell'elaborazione per l'operazione.
Elementi consigliati per l'analisi di dati
Correlazione di log a livello di applicazione e a livello di risorsa. Valutare i dati a entrambi i livelli per ottimizzare il rilevamento e la risoluzione dei problemi.
Definisci tempi di ritenzione chiari per la conservazione per l'analisi a freddo. Consigliamo questa procedura per consentire l'analisi cronologica su un periodo specifico. Può anche aiutarti a controllare i costi di archiviazione. Implementa processi che garantiscano che i dati vengano archiviati in uno spazio di archiviazione più economico e aggregano i dati per l'analisi delle tendenze a lungo termine.
Analizza le tendenze a lungo termine per prevedere i problemi operativi. Valuta i dati a lungo termine per formulare strategie operative e anche per prevedere quali problemi operativi potrebbero verificarsi e quando. Ad esempio, potresti notare che i tempi di risposta medi aumentano lentamente nel tempo e si avvicinano al target massimo.
Visualizzazione
La visualizzazione nel monitoraggio dello stato è fondamentale per comprendere lo stato del carico di lavoro. La visualizzazione può aiutarti a identificare rapidamente problemi e tendenze, nonché a comprendere l'effetto delle modifiche apportate al carico di lavoro.
Dashboard
Il modo più comune per visualizzare i dati è utilizzare dashboard in grado di mostrare le informazioni sotto forma di diagrammi o diagrammi. Questi elementi possono essere parametrizzati e un analista può selezionare parametri importanti, come il periodo di tempo, per qualsiasi situazione specifica.
Allinea i tuoi dashboard con il tuo modello di integrità in modo che indichino quando il carico di lavoro o i componenti del carico di lavoro sono integri, degradati o non integri.
Affinché un sistema di dashboard funzioni in modo efficace, deve essere significativo per il team del carico di lavoro. Visualizza le informazioni relative allo stato del carico di lavoro e che sono anche utilizzabili. Quando il carico di lavoro o un componente è degradato o non integro, i membri del team del carico di lavoro dovrebbero essere in grado di identificare facilmente dove ha origine il problema nel carico di lavoro e avviare le azioni correttive o le indagini. Al contrario, includere informazioni non utilizzabili o non correlate allo stato del carico di lavoro può rendere la dashboard inutilmente complessa e frustrante per i membri del team che cercano di distinguere il rumore di fondo dai dati utilizzabili.
Potresti avere dashboard personalizzate per le parti interessate o gli sviluppatori per mostrare solo i dati sul carico di lavoro che ritengono rilevanti. Assicurati che il team del carico di lavoro comprenda i tipi di punti dati che gli altri team sono interessati a vedere e visualizzi in anteprima i dashboard prima di condividerli per verificarne la chiarezza. Fornire alle parti interessate dashboard sul carico di lavoro è un buon modo per tenerle informate sullo stato di salute del carico di lavoro, ma rischia di essere controproducente se le parti interessate non comprendono chiaramente i dati.
Limita l'accesso alla dashboard al personale autorizzato. Le informazioni sui dashboard potrebbero essere sensibili. Dovresti anche proteggere i dati sottostanti per impedire agli utenti di modificarli.
Report
Il reporting viene utilizzato per generare una visione complessiva del sistema. Potrebbe integrare dati storici e informazioni attuali. I requisiti di reporting rientrano in due grandi categorie: reporting operativo e reporting di sicurezza.
Il reporting operativo in genere include:
- Statistiche di aggregazione utilizzabili per comprendere l'utilizzo delle risorse del sistema complessivo o di sottosistemi specificati durante un intervallo di tempo specificato.
- Identificazione delle tendenze nell'utilizzo delle risorse per l'intero sistema o per sottosistemi specifici durante un periodo specificato.
- Monitoraggio delle eccezioni che si sono verificate in tutto il sistema o in sottosistemi specifici durante un periodo specificato.
- Determinare l'efficienza dell'applicazione per le risorse distribuite e comprendere se il volume delle risorse e i relativi costi possono essere ridotti senza compromettere inutilmente le prestazioni.
Il reporting sulla sicurezza tiene traccia dell'utilizzo del sistema da parte del cliente. Può includere:
- Controllo delle operazioni dell'utente. Questa attività richiede la registrazione delle singole richieste che ciascun utente completa, insieme a date e orari. I dati dovrebbero essere strutturati per consentire a un amministratore di ricostruire rapidamente la sequenza di operazioni che un utente completa durante un periodo specificato.
- Monitoraggio dell'utilizzo delle risorse da parte dell'utente. Questo attività richiede di registrare come ogni richiesta di un utente accede alle varie risorse del sistema e per quanto tempo. Un amministratore può utilizzare questi dati per generare un rapporto di utilizzo, per utente, per un periodo specificato, possibilmente per la fatturazione.
Avvisi
Per garantire che il sistema rimanga integro, reattivo e sicuro, impostare gli avvisi in modo che gli operatori possano rispondere in modo tempestivo. Un avviso può contenere informazioni contestuali sufficienti per aiutarli a iniziare rapidamente le attività diagnostiche.
Elementi consigliati per gli avvisi
- Definisci un processo per la risposta agli avvisi che identifichi i proprietari e le azioni responsabili.
- Configura gli avvisi per un ambito ben definito e regola la verbosità per ridurre al minimo il rumore.
- Utilizza una soluzione di avviso automatizzata, come Splunk o Monitoraggio di Azure, invece di richiedere alle persone di cercare attivamente i problemi.
- Utilizza gli avvisi per rendere operativi i processi di riparazione. Ad esempio, crea automaticamente ticket per tenere traccia di problemi e risoluzioni.
Soglie
Gli avvisi vengono generati quando vengono superate le soglie, come rilevato dal sistema di monitoraggio. Assicurati che le soglie impostate generalmente ti diano tempo sufficiente per implementare le modifiche necessarie al carico di lavoro per evitare degradazioni o interruzioni. Dovresti anche implementare la gestione degli errori necessaria e individuare gli errori noti nel carico di lavoro per ridurre il numero di avvisi. Ad esempio, configura criteri di ripetizione per le tue azioni nei flussi cloud in modo che un nuovo tentativo venga effettuato come parte dell'esecuzione del flusso e solo se i tentativi ripetuti falliscono e l'errore del flusso viene registrato e viene inviato un avviso. Per ulteriori informazioni, consultare Raccomandazioni per la progettazione di una strategia di monitoraggio e avviso affidabile.
Facilitazione di Power Platform
Power Platform si integra con Application Insights, che fa parte dell'ecosistema Monitoraggio di Azure. Utilizza l'integrazione per:
Ricevere telemetria su diagnostica e prestazioni acquisita dalla piattaforma Dataverse in Application Insights. Puoi iscriverti per ricevere la telemetria sulle operazioni che le applicazioni eseguono nel database Dataverse e nelle app basate su modello. Questa telemetria fornisce informazioni che puoi utilizzare per diagnosticare e risolvere i problemi relativi a errori e prestazioni.
Connetti le tue app canvas su Application Insights. Puoi utilizzare queste analisi per diagnosticare problemi e capire cosa fanno gli utenti con le tue app. Puoi raccogliere informazioni per aiutarti a prendere decisioni aziendali migliori e migliorare la qualità delle tue app.
Configurare Power Automate la telemetria per confluire in Application Insights. Ad esempio, è possibile monitorare le esecuzioni di flusso cloud e creare avvisi per gli errori di esecuzione di Cloud Flow.
Acquisisci dati di telemetria dal tuo Microsoft Copilot Studio copilota per utilizzarli in Azure Application Insights. Puoi utilizzare questa telemetria per monitorare i messaggi registrati e gli eventi inviati e ricevuti dal tuo copilota, gli argomenti da attivare durante le conversazioni degli utenti e gli eventi di telemetria personalizzati che possono essere inviati dai tuoi argomenti.
Power Platform le risorse registrano le attività nel Microsoft portale di conformità di Purview. La maggior parte degli eventi sono disponibili entro 24 ore dall'attività. Non utilizzare queste informazioni per il monitoraggio in tempo reale. Per ulteriori informazioni sulla registrazione delle attività in Power Platform, vedi:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform connettori
- Dati prevenzione delle perdite
- Power Platform registri amministrativi
- Dataverse revisione contabile
Il tuo carico di lavoro potrebbe includere risorse di Azure. Power Platform Per saperne di più, consulta la sezione Raccomandazioni per la progettazione e la creazione di un sistema di monitoraggio.
Lo starter kit CoE di Power Platform è un'implementazione di riferimento che contiene una raccolta di componenti e strumenti che ti consentono di iniziare a sviluppare una strategia per l'adozione e il supporto di Power Platform. Il CoE Starter Kit include un ricco set di dashboard. Scopri di più in Ottieni informazioni approfondite sulla tua Microsoft Power Platform adozione con la dashboard Power BI CoE.
Il kit di automazione di Power Platform è un set di strumenti che accelera l'uso e il supporto di Power Automate per desktop nei progetti di automazione. Il kit fornisce gli strumenti che consentono di gestire i progetti di automazione e di monitorarli per stimare il risparmio e il ritorno sull'investimento (ROI). Una parte dell'Automation Kit è il centro di controllo, che integra la funzionalità Monitor flusso desktop runs. L'obiettivo principale del centro di controllo è una vista dell'orchestratore che consente agli analisti e alle organizzazioni di supporto di monitorare, agire e avvisare quando necessario.
Informazioni correlate
- Raccomandazioni per la progettazione di una strategia di monitoraggio e allerta affidabile
- Raccomandazioni per il monitoraggio e il rilevamento delle minacce