Panoramica
Questa serie fornisce un esempio illustrativo del modo in cui un'organizzazione potrebbe progettare una strategia di ripristino di emergenza per una piattaforma dati aziendale di Azure.
- Questa serie di articoli integra le linee guida fornite da Cloud Adoption Framework di Microsoft, il framework ben progettato di Azure e la gestione della continuità aziendale.
Azure offre un'ampia gamma di opzioni di resilienza che possono fornire continuità del servizio in caso di emergenza. Ma i livelli di servizio più elevati possono introdurre complessità e un costo premium. Il compromesso dei costi rispetto alla resilienza e alla complessità è il fattore decisionale chiave per la maggior parte dei clienti in merito al ripristino di emergenza.
Anche se si verificano occasionalmente errori di punto nella piattaforma Azure, i data center di Azure e i servizi di Azure di Microsoft hanno più livelli di ridondanza predefiniti. Qualsiasi errore è in genere limitato nell'ambito e viene in genere risolto entro poche ore. Storicamente, è molto più probabile che un servizio chiave, ad esempio la gestione delle identità, verifichi un problema di servizio anziché un'intera area di Azure che passa offline.
Dovrebbe anche essere riconosciuto che gli attacchi informatici, in particolare ransomware, ora rappresentano una minaccia tangibile per qualsiasi ecosistema di dati moderno e possono causare un'interruzione della piattaforma dati. Anche se questo è fuori ambito per questa serie, i clienti sono invitati a implementare controlli contro tali attacchi come parte della progettazione della sicurezza e della resilienza di qualsiasi piattaforma dati.
- Le linee guida Microsoft sulla protezione ransomware sono disponibili in Nozioni fondamentali sul cloud di Azure
Ambito
L'ambito di questa serie di articoli include:
- Ripristino del servizio di una piattaforma dati di Azure da un'emergenza fisica per un utente illustrativo del cliente. Questo cliente illustrativo è:
- Un'organizzazione di medie dimensioni con una funzione di supporto operativo definita, seguendo una metodologia di gestione dei servizi basata su ITIL (Information Technology Infrastructure Library).
- Non nativo del cloud, con i principali servizi aziendali, come la gestione degli accessi e l'autenticazione e la gestione degli eventi imprevisti rimanenti in locale.
- Nel percorso di migrazione cloud ad Azure, abilitato dall'automazione.
- La piattaforma dati di Azure ha implementato le progettazioni seguenti all'interno della tenancy di Azure del cliente:
- Zona di destinazione dell'organizzazione: fornire le basi della piattaforma, tra cui rete, monitoraggio, sicurezza e così via.
- Piattaforma di analisi di Azure: fornisce i componenti dati che supportano le varie soluzioni e i prodotti dati forniti dal servizio.
- I processi descritti in questo articolo verranno eseguiti da una risorsa tecnica di Azure anziché da uno specialista esperto in materia di Azure (SME). Di conseguenza, le risorse devono avere il livello di conoscenza/competenze seguente:
- Concetti fondamentali di Azure: conoscenza di Azure, dei relativi servizi di base e dei componenti dati.
- Conoscenza di Azure DevOps. È possibile esplorare il controllo del codice sorgente ed eseguire distribuzioni della pipeline.
- Questi processi descritti in questo articolo illustrano le operazioni di failover del servizio, dal database primario all'area secondaria.
Fuori ambito
Gli elementi seguenti sono considerati out-of-scope per questa serie di articoli:
- Processo di fallback, dall'area secondaria all'area primaria.
- Tutte le applicazioni, i componenti o i sistemi non Azure, inclusi, ma non solo in locale, altri fornitori di servizi cloud, servizi Web di terze parti e così via.
- Ripristino di tutti i servizi upstream, ad esempio reti locali, gateway, servizi condivisi aziendali e altri, indipendentemente dalle dipendenze da questi servizi.
- Ripristino di tutti i servizi downstream, ad esempio sistemi operativi locali, sistemi di creazione di report di terze parti, modellazione dei dati o applicazioni di data science e altri, indipendentemente dalle dipendenze da questi servizi.
- Scenari di perdita dei dati, tra cui il ripristino da ransomware o eventi imprevisti di sicurezza dei dati simili
- Strategie di backup dei dati e piani di ripristino dei dati
- Definizione della causa radice di un evento di ripristino di emergenza.
- Per gli eventi imprevisti del servizio o dei componenti di Azure, Microsoft pubblica una "Analisi della causa radice" all'interno della pagina Web Stato - Cronologia
Presupposti chiave
I presupposti chiave per questo esempio di ripristino di emergenza sono:
- L'organizzazione segue una metodologia di gestione dei servizi basata su ITIL per il supporto operativo della piattaforma dati di Azure.
- L'organizzazione ha un processo di ripristino di emergenza esistente come parte del framework di ripristino del servizio per gli asset IT.
- L'infrastruttura come codice (IaC) è stata usata per distribuire la piattaforma dati di Azure abilitata da un servizio di automazione, ad esempio Azure DevOps o simile.
- Ogni soluzione ospitata dalla piattaforma dati di Azure ha completato una valutazione dell'impatto aziendale o simile, fornendo requisiti di servizio chiari per l'obiettivo del punto di ripristino (RPO), l'obiettivo del tempo di ripristino (RTO) e il tempo medio per il recupero delle metriche (MTTR).
Passaggi successivi
Ora che si è appreso lo scenario a livello generale, è possibile passare a informazioni sull'architettura progettata per il caso d'uso.
Risorse correlate
- Ripristino di emergenza per la piattaforma dati di Azure - Architettura
- Ripristino di emergenza per la piattaforma dati di Azure - Dettagli dello scenario
- Ripristino di emergenza per la piattaforma dati di Azure - Raccomandazioni
- Ripristino di emergenza per la piattaforma dati di Azure - Distribuire questo scenario