Monitoraggio cloud e risposta

Questo articolo fa parte di una serie della guida al monitoraggio del cloud.

La risposta è il risultato della definizione di una o più azioni in base alle decisioni basate sui dati dal monitoraggio che consentono agli utenti di:

  • Renderlo utilizzabile: usare configurazioni di monitoraggio ottimizzate per creare segnali interattivi.
  • Monitoraggio continuo: applicare il monitoraggio in tutto l'evento imprevisto e le attività di risoluzione dei problemi per facilitare la diagnosi dei problemi.
  • Automatizzare: configurare l'analisi automatica, la diagnosi, la risoluzione, il ripristino e la correzione in base ai segnali identificati.

Il principio di importanza si applica qui. Ciò consente di elaborare il flusso o i criteri per l'azione per ottimizzare avvisi, notifiche e digest dei report. Il monitoraggio del cloud è molto più che notificare agli esseri umani che qualcosa è sbagliato. Si tratta anche di fornire segnali ai sistemi e ai servizi per reagire.

Il monitoraggio svolge un ruolo fondamentale in un'ampia gamma di scenari:

  • Abilitazione del comportamento del servizio dinamico: controlla dinamicamente sistemi e servizi per reagire in base ai dati di monitoraggio ed eliminare automaticamente gli eventi imprevisti.
  • Valutare continuamente i segnali: informare costantemente e fornire dati di telemetria per processi dinamici, conformità, scalabilità automatica e visualizzazioni.
  • Azioni organizzative: aiutare l'organizzazione IT ad agire e gestire le modifiche.

Creazione di avvisi

L'automazione sostituisce processi di gestione dei servizi più costosi nel panorama del cloud moderno, eliminando più eventi imprevisti. Gli avvisi svolgono un ruolo fondamentale nella consapevolezza, ma devono essere interattivi per evitare la fatica di avviso o il rumore.

La definizione degli avvisi consente di garantire in modo proattivo che i servizi e i sistemi rimangano integri, reattivi, affidabili e sicuri. Garantire prestazioni, rispettare gli obiettivi del livello di servizio (SLO), la disponibilità e la privacy richiede una strategia di avviso appropriata. L'escalation degli avvisi non è fondamentale per l'osservabilità e oggi non deve essere considerata la prima linea di difesa. L'automazione dovrebbe invece svolgere un ruolo fondamentale qui.

Tradizionalmente, il monitoraggio significava generare un avviso su cui qualcuno potrebbe agire, implicando un processo completamente reattivo. Questo approccio deve essere modificato seguendo le procedure moderne per la gestione dei servizi o le operazioni cloud. Questo approccio segue attentamente il percorso tradizionale di gestione degli eventi imprevisti ITIL, che non corrisponde agli obiettivi dell'efficienza del cloud tramite agilità, costo minimo e ottimizzazione.

Un approccio moderno può avere una frequenza di condizioni rilevate più informative e automatizzate, ad esempio:

Condizione rilevata Azione precedente Azione moderna
  • Metrica delle prestazioni - Utilizzo elevato della memoria.
  • Minaccia alla sicurezza - Rilevamento di attività di rete sospette.
  • Errore di disponibilità - Le richieste di Archiviazione BLOB di Azure hanno esito negativo.
  • Generazione di avvisi e notifiche, webhook, notifiche push, playbook, scalabilità automatica Esecuzione di query sui log per identificare il componente che ha provocato il problema e attivare l'automazione per risolvere il problema del componente specifico.

    Di seguito è riportato un elenco delle risorse pertinenti per le funzionalità di avviso e automazione in Azure:

    Monitoraggio cloud moderno

    Rispetto alle piattaforme di monitoraggio e agli strumenti correlati disponibili in passato, il cloud computing offre:

    • Maggiore flessibilità per definire opzioni di risposta.
    • Modalità più semplici per sviluppare e abilitare risposte automatizzate.
    • Integrazione più semplice dei protocolli cloud o dei metodi API con sistemi di gestione del lavoro, incluso DevOps.

    Prendere in considerazione le modalità seguenti per l'intervallo di azioni automatizzate, indipendentemente dal fatto che si tratti di analisi, arricchimento, routing, assegnazione, correzione, ripristino o risoluzione:

    Metodo di orchestrazione Descrizione
    Completamente automatizzato Le azioni vengono eseguite automaticamente. L'automazione completa deve essere collaudata, efficiente e durevole in cui la sua utilità non è di breve durata ed è sicura. L'automazione completa libera le risorse in modo che possano concentrarsi maggiormente sulle iniziative strategiche.
    Automazione parziale È necessaria l'approvazione per ogni azione di correzione.
    Manualee Un operatore seleziona un esempio di automazione o un playbook da una libreria curata.

    Gli avvisi dipendono dai dati instrumentati in base a eventi di sicurezza, metriche delle prestazioni, informazioni sulla disponibilità e log. Le azioni guidate dai dati derivano dall'analisi di prospettive end-to-end olistiche di ogni risorsa monitorata aggregando ed elaborando tipi di dati raccolti diversi per determinare l'impatto e l'azione reattiva da intraprendere.

    Espandere la lettura con queste risorse per altre informazioni sull'automazione in base agli avvisi delle metriche e agli eventi di sicurezza:

    Efficienza dei costi

    Come per le altre discipline osservabili, il team deve comprendere e realizzare le implicazioni sui costi e il modo in cui i tipi di risposte definiti a supporto della gestione degli eventi imprevisti moderna aiutano a controllare i costi. Sebbene l'obiettivo generale sia quello di ridurre il tempo medio di ripristino (MTTR) rispondendo rapidamente e risolvendo un problema, è necessario valutare costantemente il costo potenziale e l'impatto sul flusso di ricavi IT o aziendale.

    Ogni evento imprevisto segnalato ha un costo. Si supponga che l'organizzazione investa nell'orchestrazione per automatizzare una risposta. In tal caso, è consigliabile valutare il costo e l'impatto del costo aumentando il consumo dal servizio cloud per usare tali servizi o funzionalità che consentono l'automazione.

    Automazione

    L'automazione del cloud offre vantaggi significativi per il monitoraggio della sicurezza e dell'integrità. Velocità, flessibilità e precisione sono tre archetipi offerti dall'automazione del cloud alle operazioni reattive. Spesso si tratta di orchestrazione e il cloud Microsoft offre diversi servizi.

    Ad esempio:

    1. Una minaccia basata su identità viene rilevata da uno o più log, generando un avviso.
    2. L'automazione viene attivata immediatamente per raccogliere altre informazioni e correlare altri log per arricchire l'avviso.
    3. Un operatore esegue un'azione selezionando l'automazione corretta da una libreria, ad esempio disabilitando un account utente.

    L'esempio o il caso d'uso può essere completamente automatizzato.

    Il ruolo dell'automazione fornisce quindi una sorta di playbook che consente di ridurre i costi e risparmiare tempo:

    • Non è stato necessario eseguire un'indagine, una diagnosi, una risoluzione e un ripristino lunghi.
    • È possibile completare il ciclo da rilevamento a correzione in pochi secondi o minuti invece di ore.

    Successivamente, il team deve creare un elenco o una raccolta di esempi di automazione che possono essere usati in modo flessibile, sia da materiale non elaborato nei siti Web pubblici, sia curato internamente e archiviato in un repository di controllo del codice sorgente.

    Ecco un elenco di letture consigliate per un'automazione più basata su eventi di identità o sicurezza:

    Strategia ottimale per la generazione di avvisi

    Non è possibile risolvere i problemi non rilevati.

    Gli avvisi relativi agli elementi importanti sono essenziali. Sono supportati dalla raccolta e dalla misurazione delle metriche e dei log appropriati. È inoltre necessario uno strumento di monitoraggio in grado di archiviare, aggregare, visualizzare, analizzare e avviare una risposta automatica quando vengono soddisfatte le condizioni specifiche. È possibile migliorare l'osservabilità dei servizi e delle applicazioni solo se si comprende appieno la loro composizione. È necessario mappare tale composizione in una configurazione di monitoraggio dettagliata che deve essere applicata dalla piattaforma di monitoraggio. Questa configurazione include gli stati di errore prevedibili (i sintomi, non la causa dell'errore) per cui è opportuno generare avvisi.

    Avvisi informativi

    In determinate circostanze, alcuni avvisi possono essere informativi. È possibile usarlo per informazioni sul comportamento dei sistemi. Ad esempio, potrebbe essere necessario ottenere questi avvisi informativi:

    • Una macchina virtuale è stata arrestata: una macchina virtuale è stata arrestata automaticamente per ridurre al minimo i costi di spreco e controllo in base a una pianificazione o a un utilizzo ridotto rilevato.

      In questo esempio l'orchestrazione è stata usata in base a una funzionalità di pianificazione nativa e dalla piattaforma di monitoraggio che rileva la condizione di utilizzo. Invece di inviare una notifica o eseguire l'escalation come unica azione, l'avviso fornisce informazioni sull'azione eseguita e sui motivi.

    • Risorse inattive: le risorse IaaS o PaaS sono inattive per un periodo prolungato o non sono sottoposte a provisioning in base alle raccomandazioni di Azure Advisor.

      In questo esempio, l'orchestrazione può essere usata per gestire tali attività correlate all'infrastruttura in base alla logica di business o al flusso di lavoro del processo ITSM. Oggi sono necessarie risposte e azioni molto più veloci. Con il cloud, gli avvisi sono meno per gli esseri umani che per una risposta automatizzata o un'orchestrazione in corso come parte di un flusso di valori automatizzato.

    Considerazioni sulla strategia di avviso

    Tenere presente che l'apprendimento è fondamentale e, se progettato correttamente, gli avvisi informativi possono fornire molte informazioni dettagliate sull'ecosistema cloud e sull'integrità.

    Prendere in considerazione i principi seguenti per stabilire se un sintomo è un candidato appropriato per la generazione di avvisi:

    • Praticabile: il problema è importante? Riflette un problema reale nell'integrità dell'applicazione? Ad esempio, potrebbe essere necessario inviare un avviso quando l'utilizzo della CPU è troppo elevato in un periodo prolungato per una risorsa o una query SQL causa costantemente problemi di prestazioni, ma potrebbe non essere necessario inviare un avviso quando il picco della CPU si verifica in un breve periodo. Rendere le cose utili per ridurre i falsi positivi ed evitare la stanchezza degli avvisi.

    • Urgenza: il problema richiede un'attenzione urgente? In tal caso, è necessario inviare immediatamente una notifica al team responsabile.

    • Impatto del cliente: gli utenti del servizio o dell'applicazione sono interessati dal problema?

    • Impatto sui sistemi dipendenti: sono presenti avvisi provenienti da dipendenze correlate che possono essere correlate per evitare di inviare notifiche a team diversi che lavorano sullo stesso problema?

    Con queste considerazioni iniziali, è possibile iniziare a sviluppare la configurazione di monitoraggio. È possibile testare e convalidare i presupposti in tutti gli ambienti. Ad esempio, valutare continuamente queste considerazioni e domande in ambienti non di produzione e di produzione. Il miglioramento continuo è fondamentale per una risposta efficace sui segnali di monitoraggio.

    Quando si valuta continuamente ciò che funziona, è consigliabile porsi queste domande per favorire la consapevolezza dell'efficacia della risposta di monitoraggio:

    • Volume degli avvisi: si ottiene un volume di avvisi elevato? Esistono molti avvisi non interattivi che potrebbero essere stati evitati?
    • Problemi non rilevati: si ricevono report o ticket dagli utenti che riscontrano problemi che non sono stati rilevati dalla configurazione di monitoraggio?
    • Falsi positivi: vengono visualizzati avvisi o segnali contrassegnati in modo non corretto?
    • Avviso o evento: è davvero necessario inviare un avviso o che alcuni degli avvisi generati siano contrassegnati nel sistema? Se i segnali vengono visualizzati quando si esegue una query su di esso, anziché inviare un avviso, sarebbe sufficiente per evitare l'affaticamento degli avvisi e le notifiche non interattive?

    Vedere la panoramica delle piattaforme di monitoraggio in questa serie di articoli per una conoscenza più approfondita delle funzionalità nelle soluzioni di monitoraggio Microsoft.

    Passaggi successivi