Raccomandazioni per la progettazione di una strategia di ripristino di emergenza

Si applica a questa raccomandazione dell'elenco di controllo di affidabilità Well-Architected Power Platform:

RE:07 Implementa piani strutturati, testati e documentati di continuità aziendale e ripristino di emergenza (BCDR) in linea con gli obiettivi di ripristino. I piani devono coprire tutte le componenti e il sistema nel suo complesso.

Questa guida descrive i consigli per progettare una strategia di ripristino di emergenza affidabile per un carico di lavoro. Per soddisfare gli obiettivi interni del livello di servizio (SLO) o anche un contratto di servizio che hai garantito ai tuoi clienti, devi disporre di una strategia di ripristino di emergenza solida e affidabile. Possono verificarsi errori o altri problemi importanti. La tua preparazione per affrontare questi incidenti determina quanto i tuoi clienti possono fidarsi della tua azienda per fornire loro risultati affidabili. Una strategia di ripristino di emergenza è la spina dorsale della preparazione agli incidenti gravi.

Definizioni

Termine Definizione
Failover Lo spostamento automatizzato e/o manuale del traffico del carico di lavoro di produzione da un'area non disponibile a un'area non interessata.
Failback Lo spostamento automatizzato e/o manuale del traffico del carico di lavoro di produzione da un'area di failover di nuovo all'area primaria.

Strategie di progettazione chiave

Questa guida presuppone che tu abbia già eseguito le seguenti attività come parte della pianificazione dell'affidabilità:

Un'architettura affidabile del carico di lavoro è la base per una strategia affidabile di ripristino di emergenza. Considera l'affidabilità in ogni fase della creazione del carico di lavoro per assicurarti di disporre dei componenti necessari per un ripristino efficiente prima di iniziare a pianificare la tua strategia di ripristino di emergenza. Questa base garantisce che gli obiettivi di affidabilità del carico di lavoro, come l'obiettivo del tempo di ripristino (RTO) e l'obiettivo del punto di ripristino (RPO), siano pratici e raggiungibili.

Mantenere un piano di ripristino di emergenza

La chiave per una strategia di ripristino di emergenza affidabile per un carico di lavoro è il piano del ripristino di emergenza. Il tuo piano dovrebbe essere un documento dinamico che viene regolarmente rivisto e aggiornato man mano che il tuo ambiente cambia. Condividi regolarmente il piano con i team interessati (operazioni, leadership tecnologica e stakeholder aziendali) (ad esempio ogni sei mesi). Conservalo in un archivio dati altamente disponibile e sicuro come OneDrive.

Segui questi consigli per sviluppare il tuo piano di ripristino di emergenza:

  • Definisci chiaramente cosa costituisce un disastro e richiede l’attivazione del piano di ripristino di emergenza.

    I disastri sono problemi su larga scala. Potrebbero essere interruzioni regionali, interruzioni di servizi come Microsoft Entra ID o DNS di Azure oppure attacchi dannosi gravi come attacchi ransomware o attacchi DDoS.

    Includi esempi di modalità di guasto che non sono considerate catastrofi, come l'indisponibilità o il guasto di una singola risorsa, nel tuo piano di ripristino di emergenza in modo che gli operatori non richiamino erroneamente le loro escalation di ripristino di emergenza.

  • Crea il piano di ripristino di emergenza sulla tua documentazione FMA. Assicurati che il tuo piano di ripristino di emergenza acquisisca le modalità di errore e le strategie di mitigazione per le interruzioni definite come catastrofi. Se sono necessari aggiornamenti, aggiorna contemporaneamente sia il tuo piano di ripristino di emergenza che i tuoi documenti FMA in modo che siano accurati quando l'ambiente cambia o quando i test rivelano comportamenti imprevisti.

  • Definisci chiaramente ruoli e responsabilità all'interno del team del carico di lavoro e comprendi eventuali ruoli esterni correlati all'interno della tua organizzazione. Se l'emergenza è causata dall'interruzione di un servizio esterno, ad esempio Microsoft Entra ID, assicurati di avere un ruolo definito come responsabile della comunicazione con la parte esterna e che tu possa condividere gli aggiornamenti con il team del carico di lavoro. I ruoli dovrebbero includere:

    • La parte responsabile della dichiarazione di un disastro
    • La parte responsabile della dichiarazione di chiusura incidente
    • Ruoli operativi
    • Ruoli di test e convalida
    • Ruoli di comunicazione interna ed esterna
    • Ruoli principali dell'analisi retrospettiva e delle cause radice
  • Definisci i percorsi di escalation che il team del carico di lavoro deve seguire per garantire che lo stato del ripristino venga comunicato alle parti interessate.

  • Includi l'ordine prescritto in cui i componenti del carico di lavoro devono essere ripristinati per causare il minor impatto. Ad esempio, ripristina i database e riavvia i flussi cloud prima di ripristinare l'applicazione.

    • Fornisci i dettagli della procedura di ripristino di ciascun componente come guida dettagliata. Se possibile, includi screenshot e prerequisiti per l'esecuzione della procedura. Ad esempio, elenca gli script o le credenziali richiesti che devono essere raccolti.

    • Definisci le responsabilità del tuo team rispetto a quelle del tuo provider di hosting cloud. Ad esempio, Microsoft è responsabile del ripristino di un PaaS (platform as a service), ma tu sei responsabile della reidratazione dei dati e dell'applicazione della configurazione al servizio.

    • Acquisisci la causa radice dell'incidente ed esegui la mitigazione prima di avviare il ripristino. Ad esempio, se la causa dell'incidente è un problema di sicurezza, mitiga tale problema prima di ripristinare i sistemi interessati nell'ambiente di failover.

  • Se devi ridistribuire la tua applicazione nell'ambiente di failover, utilizza gli strumenti per automatizzare il più possibile il processo di distribuzione. Assicurati che le pipeline di Azure siano predistribuite e configurate correttamente negli ambienti di failover in modo da poter iniziare immediatamente le distribuzioni. Utilizza distribuzioni end-to-end automatizzate, con gate di approvazione manuali ove necessario, per garantire un processo di distribuzione coerente ed efficiente. Quando una fase del processo di distribuzione richiede un intervento manuale, documenta i passaggi manuali. Definisci chiaramente ruoli e responsabilità.

  • Automatizza il più possibile la procedura. Utilizza la logica dei tentativi per evitare di perdere tempo con script bloccati su un'attività interrotta. Poiché esegui questi script solo in caso di emergenza, non vuoi che script sviluppati in modo errato causino ulteriori danni o rallentino il processo di ripristino.

Nota

L’automazione comporta dei rischi. Gli operatori addestrati devono monitorare attentamente i processi automatizzati e intervenire se qualche processo incontra problemi. Per ridurre al minimo il rischio che l'automazione reagisca ai falsi positivi, sii accurato nei drill down del ripristino di emergenza. Testa tutte le fasi del piano. Simula il rilevamento per generare avvisi, quindi segui l'intera procedura di ripristino.

Effettua il drill down del ripristino di emergenza

Una procedura di test del ripristino di emergenza è essenziale per un buon piano di ripristino di emergenza. Molti settori dispongono di quadri di conformità che richiedono drill down regolari del ripristino di emergenza. Indipendentemente dal settore in cui operi , drill down frequenti del ripristino di emergenza sono fondamentali per il tuo successo.

Segui questi consigli per drill down del ripristino di emergenza di successo:

  • Esegui almeno un drill down del ripristino di emergenza all'anno. I drill down di prova o di non produzione aiutano a garantire che le parti coinvolte abbiano familiarità con i propri ruoli e responsabilità. Questi drill down aiutano anche gli operatori a acquisire familiarità seguendo i processi di ripristino. Ma solo i drill down di produzione mettono alla prova veramente la validità del piano di ripristino di emergenza e delle metriche RTO e RPO. Utilizza i drill down di produzione per cronometrare i processi di ripristino di componenti e flussi per garantire che gli obiettivi RTO e RPO definiti per il carico di lavoro siano raggiungibili. Per le funzioni che sono fuori dal tuo controllo, come le interruzioni Microsoft Entra ID, assicurati che gli obiettivi RTO e RPO per i flussi che coinvolgono tali funzioni tengano conto di possibili ritardi che vanno oltre il tuo controllo.

  • Utilizza drill down di prova per istruire i nuovi operatori sui processi e sulle procedure di ripristino di emergenza. Gli operatori senior dovrebbero prendersi del tempo per lasciare che i nuovi operatori svolgano il loro ruolo e dovrebbero cercare opportunità di miglioramento. Se un nuovo operatore è esitante o confuso riguardo a un passaggio di una procedura, rivedi la procedura per verificare che sia scritta in modo chiaro.

Considerazioni

L'esecuzione di drill down di ripristino di emergenza in produzione può causare guasti catastrofici imprevisti. Assicurati di testare le procedure di ripristino in ambienti non di produzione durante le distribuzioni iniziali.

Concedi al tuo team il maggior tempo possibile per la manutenzione durante le esercitazioni. Quando pianifichi il tempo di manutenzione, utilizza le metriche di ripristino acquisite durante i test come le assegnazioni del tempo minimo necessario.

Man mano che le tue procedure di drill down di ripristino di emergenza maturano, impari quali procedure puoi eseguire in parallelo e quali devi eseguire in sequenza. All'inizio delle procedure di drill down, presupponi che ogni procedura debba essere eseguita in sequenza e che sia necessario più tempo in ogni passaggio per gestire problemi imprevisti.

Funzionalità di failover

Microsoft Business Applications fornisce funzionalità di continuità aziendale e ripristino di emergenza (BCDR) a tutti gli ambienti di produzione in Dynamics 365 e alle applicazioni Power Platform Software as a Service (SAAS). Scopri come Microsoft garantisce la resilienza dei tuoi dati di produzione durante le interruzioni regionali.

Lista di controllo dell'affidabilità

Fare riferimento alla serie completa di raccomandazioni.