Monitorare un ambiente cloud

È necessaria l'osservabilità dell'ambiente cloud per garantire che i carichi di lavoro vengano eseguiti senza problemi, sia che si tratti di un proprietario aziendale, di un proprietario della piattaforma o di un proprietario dell'applicazione. È necessario sapere se:

  • Le applicazioni sono disponibili e, se sono conformi alle aspettative dei clienti.
  • Sono presenti minacce per la sicurezza che richiedono un'indagine.
  • I costi di consumo rientrano nell'intervallo previsto.

Il monitoraggio è il processo di raccolta, analisi e gestione dei dati di telemetria che indica l'integrità della piattaforma, delle risorse e delle applicazioni. Un ambiente di monitoraggio efficace include l'intero ambiente cloud, che può includere risorse in più cloud e ambienti locali.

L'osservabilità è una proprietà di un sistema che misura la capacità di dedurre i relativi stati interni dagli output esterni. È necessario distribuire servizi e processi per monitorare l'ambiente cloud. È inoltre necessario avere la possibilità di osservare e comprendere il comportamento dei servizi eseguiti nel cloud.

Vantaggi del monitoraggio

Investire nell'ambiente di monitoraggio per ottenere i vantaggi seguenti in più aspetti del cloud:

  • Disponibilità e prestazioni: monitorare le risorse per assicurarsi che i servizi cloud e le applicazioni siano disponibili e vengano eseguiti come previsto. Per identificare e rispondere ai problemi prima che influiscano sugli utenti, tenere traccia delle metriche chiave e configurare le regole di avviso.

  • Ottimizzazione costi: usare il monitoraggio per tenere traccia dell'utilizzo delle risorse e ridimensionare le risorse in base alla domanda. Questo approccio consente di evitare il provisioning eccessivo e sottoutilizzate delle risorse, ottimizzando i costi. Il monitoraggio può anche identificare e avvisare l'utente di eventuali sovraccarichi dei costi o picchi di utilizzo imprevisti.

  • Conformità: usare il monitoraggio per gestire i log e i record delle attività, che consentono di garantire che i servizi cloud siano conformi ai criteri e alle normative. I report che usano questi dati possono essere utili per controlli regolari e controlli di conformità.

  • Sicurezza: implementare il monitoraggio continuo per rilevare minacce e vulnerabilità della sicurezza in modo da poter agire immediatamente per proteggere dati e risorse. È anche possibile analizzare i dati raccolti per il rilevamento e la risposta delle minacce.

Piattaforme di monitoraggio

Una strategia di monitoraggio efficace include tutte le piattaforme nell'ambiente di elaborazione. Oltre ad Azure, potrebbero essere presenti risorse locali, multicloud e perimetrali. Ogni risorsa richiede gli stessi livelli di monitoraggio. Seguire il materiale sussidiario di Cloud Adoption Framework per Azure e includere il monitoraggio nella strategia operativa unificata. In questa strategia, il cloud primario ospita gli strumenti di monitoraggio e altri strumenti di gestione. Gli strumenti di monitoraggio monitorano tutte le risorse in tutte le piattaforme.

Diagramma concettuale che mostra la strategia operativa unificata.

Tipi di monitoraggio

Il monitoraggio è una disciplina multifatta che richiede una combinazione di strumenti, processi e procedure. La tabella seguente suddivide vari tipi di monitoraggio. Servizi e funzionalità diversi possono fornire combinazioni diverse di questi tipi di monitoraggio. Tuttavia, un ambiente di monitoraggio completo include tutti questi tipi di monitoraggio in ognuna delle piattaforme nell'ambiente di elaborazione.

Tipo Descrizione
Infrastruttura Il monitoraggio dell'infrastruttura include le prestazioni e la disponibilità delle risorse cloud, ad esempio macchine virtuali, risorse di archiviazione e reti. Questo tipo di monitoraggio consente di garantire che l'infrastruttura sottostante funzioni in modo ottimale, che consente di mantenere la disponibilità e le prestazioni delle applicazioni che si basano su di essa.
Monitoraggio delle prestazioni dell'applicazione (APM) APM monitora le prestazioni e la disponibilità delle applicazioni eseguite nel cloud. Tiene traccia delle metriche, ad esempio tempi di risposta, percentuali di errore e volumi delle transazioni. APM identifica i colli di bottiglia delle prestazioni e garantisce che le applicazioni soddisfino le aspettative degli utenti.
Database Il monitoraggio del database tiene traccia delle prestazioni, della disponibilità e dell'utilizzo delle risorse dei database cloud. Le metriche chiave includono le prestazioni delle query, l'utilizzo dell'indice e lo stato del blocco.
Rete Il monitoraggio della rete tiene traccia delle prestazioni e della disponibilità dei componenti di rete nell'ambiente cloud. Le metriche includono l'utilizzo della larghezza di banda, la latenza e la perdita di pacchetti.
Sicurezza Il monitoraggio della sicurezza tiene traccia e analizza gli eventi di sicurezza e le vulnerabilità all'interno dell'ambiente cloud, inclusi accessi non autorizzati, malware e violazioni della conformità. Un monitoraggio efficace della sicurezza consente di proteggere i dati sensibili, garantire la conformità ai requisiti normativi e prevenire costose violazioni della sicurezza.
Conformità Il monitoraggio della conformità garantisce che l'ambiente cloud rispetti gli standard normativi e di settore. Tiene traccia delle configurazioni, dei controlli di accesso e delle procedure di gestione dei dati per garantire la conformità alle normative pertinenti.
Costo Il monitoraggio dei costi tiene traccia della spesa cloud e dell'utilizzo delle risorse per identificare le opportunità di risparmio sui costi e prevenire il sovraccarico del budget. Monitora l'utilizzo delle risorse, identifica le risorse sottoutilate e ottimizza le configurazioni delle risorse per ridurre i costi.

Responsabilità condivise

In un ambiente locale, si è responsabili di tutti gli aspetti del monitoraggio perché si è proprietari e si gestiscono tutte le risorse di calcolo. Nel cloud si condivide questa responsabilità con il provider di servizi cloud. A seconda del tipo di modello di distribuzione scelto, le responsabilità per il monitoraggio di vari livelli dello stack cloud potrebbero essere trasferite dall'utente al provider di servizi cloud.

In una distribuzione IaaS (Infrastructure as a Service), il provider di servizi cloud monitora la piattaforma cloud sottostante, ad esempio l'infrastruttura fisica e il livello di virtualizzazione. È anche possibile monitorare il sistema operativo, le applicazioni e i dati eseguiti nelle macchine virtuali distribuite nella piattaforma cloud. Quando il modello di distribuzione aumenta lo stack, il provider di servizi cloud assume maggiore responsabilità per monitorare l'ambiente. Questa responsabilità culmina in una distribuzione SaaS (Software as a Service) perché si trasferisce la responsabilità di monitoraggio al provider di servizi cloud per l'intero stack, inclusi l'applicazione e i dati.

Diagramma che mostra le responsabilità condivise per il monitoraggio nel cloud.

È possibile usare gli strumenti di monitoraggio del provider di servizi cloud per monitorare i livelli dello stack, ma si è responsabili della configurazione di questi strumenti e dell'analisi dei dati raccolti. È necessario concedere l'accesso a vari membri dell'organizzazione e creare dashboard e avvisi per aiutarli a distinguere le informazioni critiche. Potrebbe anche essere necessario integrare questi componenti con altri strumenti e sistemi di creazione di ticket usati dall'organizzazione.

Il provider di servizi cloud deve eseguire gli stessi tipi di servizio per i livelli dello stack forniti ai clienti interni. Devono monitorare continuamente l'integrità e le prestazioni della piattaforma che si contrae all'utente. Forniscono dashboard e avvisi per notificare in modo proattivo eventuali problemi di servizio. Analogamente ai clienti interni, non è necessaria visibilità sulle complessità del modo in cui il provider di servizi monitora la propria piattaforma, solo che soddisfano i contratti a livello di servizio contratti con loro.

Ruoli e responsabilità

La maggior parte delle organizzazioni aziendali ha un team operativo centralizzato che monitora l'integrità e le prestazioni complessive dell'ambiente cloud.

Questo team in genere:

  • Imposta le strategie per l'azienda complessiva.
  • Esegue la configurazione centralizzata dell'ambiente di monitoraggio.
  • Delega le autorizzazioni agli stakeholder dell'organizzazione che richiedono l'accesso ai dati di monitoraggio correlati alle applicazioni e ai servizi.

Le organizzazioni hanno più ruoli che gestiscono l'ambiente di monitoraggio e che richiedono l'accesso ai dati di monitoraggio per eseguire le funzioni del processo. Ogni ruolo ha requisiti diversi per monitorare i dati in base alle proprie responsabilità specifiche. A seconda delle dimensioni dell'organizzazione, potrebbero essere presenti più persone che occupano ogni ruolo oppure un singolo utente che riempie più ruoli.

Le singole organizzazioni possono distribuire le responsabilità in modo diverso. La tabella seguente illustra un esempio di ruoli e responsabilità per una tipica organizzazione.

Ruolo Descrizione
Cloud Architect L'architetto cloud progetta e supervisiona l'infrastruttura cloud per garantire che soddisfi gli obiettivi aziendali dell'organizzazione. L'architetto cloud si concentra sull'affidabilità, la sicurezza e la scalabilità dell'architettura cloud. Richiedono dati di telemetria di alto livello per ottenere una visione olistica del digital estate. Questi dati di telemetria includono le metriche di utilizzo delle risorse, le metriche APM, le informazioni dettagliate sui costi e la fatturazione e i report di conformità.
Tecnico di piattaforma Il tecnico della piattaforma compila e gestisce la piattaforma usata dagli sviluppatori per distribuire le applicazioni. Il tecnico della piattaforma potrebbe creare pipeline di integrazione continua e recapito continuo (CI/CD), gestire l'infrastruttura cloud come codice (IaC) e garantire la scalabilità e l'affidabilità della piattaforma. Il tecnico della piattaforma richiede dati di telemetria sullo stato operativo della piattaforma. Questi dati di telemetria includono le metriche delle prestazioni dei contenitori, i log di orchestrazione, la convalida IaC e la disponibilità del servizio.
Amministratore di sistema L'amministratore di sistema gestisce e gestisce server, sistemi operativi e altri componenti dell'infrastruttura nel cloud. Eseguono backup, risolvono i problemi e assicurano che i sistemi siano aggiornati. L'amministratore di sistema richiede dati di telemetria a livello di server e del sistema operativo, inclusi utilizzo di CPU, memoria e disco, prestazioni di rete e log di sistema.
Tecnico della sicurezza Il tecnico della sicurezza implementa e gestisce misure di sicurezza per proteggere i dati e le applicazioni dalle minacce. Il tecnico della sicurezza gestisce tutti gli elementi, dalla gestione delle identità al rilevamento e alla risposta delle minacce. Usano i dati di telemetria sugli eventi di sicurezza, inclusi i log di accesso, gli avvisi di rilevamento delle minacce, le valutazioni delle vulnerabilità e le metriche di conformità.
Amministratore di rete L'amministratore di rete gestisce e gestisce la rete cloud per garantire che i flussi di dati vengano trasmessi in modo sicuro ed efficiente tra server, applicazioni e utenti. L'amministratore di rete gestisce le configurazioni di rete, monitora le prestazioni e implementa misure di sicurezza. Richiedono dati di telemetria incentrati sulla rete, tra cui l'analisi del traffico di rete, le misurazioni della latenza, la perdita di pacchetti e i log del firewall.
Amministratore del database (DBA) L'amministratore di database gestisce e gestisce i database per garantire l'integrità, le prestazioni e la disponibilità dei dati. L'amministratore del database gestisce i backup e il ripristino del database e ottimizza le query per garantire l'efficienza. Usano i dati di telemetria sulle prestazioni e sull'integrità del database, incluse le metriche delle prestazioni delle query, i tempi di risposta del database, i log delle transazioni e lo stato di backup o ripristino.
Sviluppatore Gli sviluppatori progettano, scrivono, testano e gestiscono il software eseguito su piattaforme cloud. Lo sviluppatore crea funzionalità e corregge i bug per garantire che l'applicazione rimanga sicura e funzioni correttamente. Richiedono dati di telemetria specifici dell'applicazione, tra cui percentuali di errore, latenza, tempi di risposta, analisi del comportamento degli utenti e metriche di utilizzo delle funzionalità.

Facilitazione di Azure

Azure offre molti servizi che supportano i diversi tipi di monitoraggio necessari nell'ambiente cloud. Ogni servizio è destinato a uno o più ruoli. Combinare i servizi per fornire le funzionalità necessarie per un ambiente di monitoraggio completo.

Servizio Descrizione Tipo Ruoli
Monitoraggio di Azure Monitoraggio di Azure è al centro dell'ecosistema di monitoraggio di Azure. Si tratta di una soluzione di monitoraggio completa che è possibile usare per raccogliere, analizzare e rispondere ai dati di monitoraggio dagli ambienti cloud e locali. Monitoraggio di Azure offre il monitoraggio completo dell'infrastruttura, della rete e delle applicazioni. Offre anche una piattaforma dati e funzionalità di base, ad esempio l'analisi dei dati, la visualizzazione e l'invio di avvisi per altri servizi. Infrastruttura
banca dati
conformità
Cloud architect,
platform engineer,
amministratore di sistema
DBA
Application Insights Application Insights è una funzionalità di Monitoraggio di Azure che fornisce il monitoraggio APM per le applicazioni cloud. APM Sviluppatore
Azure Network Watcher Network Watcher offre funzionalità di monitoraggio e visualizzazione per le risorse di rete in Azure. Usare questo servizio per monitorare, diagnosticare e visualizzare le metriche. È anche possibile abilitare o disabilitare i log per le risorse in una rete virtuale di Azure. Rete Amministratore di rete
Microsoft Sentinel Microsoft Sentinel è una soluzione SIEM (Security Information Event Management) nativa del cloud e soAR (Security Orchestration Automated Response). Inserisce i dati di telemetria della sicurezza dalle risorse di Azure e altri componenti per fornire rilevamento, analisi, risposta e ricerca proattiva delle minacce informatiche. Sicurezza Tecnico della sicurezza
Microsoft Defender XDR Defender XDR include soluzioni di sicurezza Microsoft native per la piattaforma Azure, i sistemi operativi Microsoft client e server e le applicazioni, tra cui Office 365, Exchange Online e SharePoint in Microsoft 365. Ogni soluzione di sicurezza usa intelligenza artificiale e Machine Learning per correlare i dati di telemetria e determinare se sono necessarie indagini. Quando rilevano comportamenti inaccettabili, agiscono per evitare interruzioni. Sicurezza Tecnico della sicurezza
Gestione dei costi Microsoft Gestione costi è una suite di strumenti che è possibile usare per analizzare, monitorare e ottimizzare i costi di Microsoft Cloud. Gestione costi è disponibile per chiunque abbia accesso a un account di fatturazione, una sottoscrizione, un gruppo di risorse o un gruppo di gestione. Costo Cloud Architect
Integrità dei servizi di Azure Integrità dei servizi fornisce uno stato di integrità dei servizi su cui si basano le risorse di Azure. Può informare l'utente di eventuali interruzioni del servizio e offrire una visualizzazione personalizzata dell'integrità dei servizi e delle aree di Azure. Infrastruttura Provider di servizi cloud