Recommandations pour la conception d’une stratégie de récupération d’urgence

S’applique à cette recommandation de liste de vérification de fiabilité Azure Well-Architected Framework :

RE :09 Implémentez des plans de continuité d’activité et de reprise d’activité (BCDR) structurés, testés et documentés qui s’alignent sur les objectifs de récupération. Les plans doivent couvrir tous les composants et le système dans son ensemble.

Ce guide décrit les recommandations relatives à la conception d’une stratégie de récupération d’urgence fiable pour une charge de travail. Pour répondre aux objectifs de niveau de service internes (SLO) ou même à un contrat de niveau de service (SLA) que vous avez garanti pour vos clients, vous devez disposer d’une stratégie de récupération d’urgence robuste et fiable. Des échecs et d’autres problèmes majeurs sont attendus. Vos préparatifs pour faire face à ces incidents déterminent combien vos clients peuvent faire confiance à votre entreprise pour livrer de manière fiable pour eux. Une stratégie de récupération d’urgence est l’épine dorsale de la préparation aux incidents majeurs.

Définitions

Terme Définition
Basculement Déplacement automatisé et/ou manuel du trafic de charge de travail de production d’une région non disponible vers une région géographique non affectée.
Restauration automatique Déplacement automatisé et/ou manuel du trafic de charge de travail de production d’une région de basculement vers la région primaire.

Stratégies de conception

Ce guide suppose que vous avez déjà effectué les tâches suivantes dans le cadre de votre planification de la fiabilité :

Une stratégie de récupération d’urgence fiable s’appuie sur la base d’une architecture de charge de travail fiable. Traitez la fiabilité à chaque étape de la création de votre charge de travail pour vous assurer que les éléments nécessaires à la récupération optimisée sont en place avant de commencer à concevoir votre stratégie de récupération d’urgence. Cette base garantit que les objectifs de fiabilité de votre charge de travail, comme l’objectif de temps de récupération (RTO) et l’objectif de point de récupération (RPO), sont réalistes et réalisables.

Maintenir un plan de récupération d’urgence

La pierre angulaire d’une stratégie de récupération d’urgence fiable pour une charge de travail est le plan de récupération d’urgence. Votre plan doit être un document dynamique qui est régulièrement examiné et mis à jour à mesure que votre environnement évolue. Présentez le plan aux équipes appropriées (opérations, leadership technologique et parties prenantes) régulièrement (tous les six mois, par exemple). Stockez-le dans un magasin de données sécurisé et hautement disponible, tel que OneDrive Entreprise.

Suivez ces recommandations pour développer votre plan de récupération d’urgence :

  • Définissez clairement ce qui constitue un sinistre et nécessite donc l’activation du plan de récupération d’urgence.

    • Les catastrophes sont des problèmes à grande échelle. Il peut s’agir de pannes régionales, de pannes de services tels que Microsoft Entra ID ou Azure DNS, ou d’attaques malveillantes graves telles que les attaques par rançongiciel ou les attaques DDoS.

    • Identifiez les modes d’échec qui ne sont pas considérés comme des sinistres, tels que la défaillance d’une seule ressource, afin que les opérateurs n’appellent pas par erreur leurs escalades de récupération d’urgence.

  • Créez le plan de récupération d’urgence sur votre documentation FMA. Assurez-vous que votre plan de récupération d’urgence capture les modes d’échec et les stratégies d’atténuation des pannes définies comme des sinistres. Mettez à jour votre plan de récupération d’urgence et vos documents FMA en parallèle afin qu’ils soient précis lorsque l’environnement change ou que les tests révèlent des comportements inattendus.

    • Le développement de plans de récupération d’urgence pour les environnements hors production dépend des besoins de votre entreprise et de l’impact sur les coûts. Par exemple, si vous proposez des environnements d’assurance qualité (QA) à certains clients pour les tests de préversion, vous pouvez inclure ces environnements dans votre planification de récupération d’urgence.
  • Définissez clairement les rôles et les responsabilités au sein de l’équipe de charge de travail et comprenez tous les rôles externes associés au sein de votre organization. Les rôles doivent inclure :

    • Partie responsable de la déclaration d’un sinistre.

    • Partie responsable de la déclaration de fermeture de l’incident.

    • Rôles d’opérations.

    • Rôles de test et de validation.

    • Rôles de communication interne et externe.

    • Rôles principaux d’analyse rétrospective et d’analyse de la cause racine (RCA).

  • Définissez les chemins d’escalade que l’équipe de charge de travail doit suivre pour garantir que les status de récupération sont communiquées aux parties prenantes.

  • Capturez les procédures de récupération au niveau des composants, la récupération au niveau du patrimoine de données et les processus de récupération à l’échelle de la charge de travail. Incluez un ordre d’opérations prescrit pour garantir que les composants sont récupérés de la manière la moins impactante. Par exemple, récupérez et case activée bases de données avant de récupérer l’application.

    • Détaillez chaque procédure de récupération au niveau du composant sous forme d’un guide pas à pas. Incluez des captures d’écran si possible.

    • Définissez les responsabilités de votre équipe par rapport aux responsabilités de votre fournisseur d’hébergement cloud. Par exemple, Microsoft est responsable de la restauration d’un PaaS (plateforme en tant que service), mais vous êtes responsable de la réhydratation des données et de l’application de votre configuration au service.

    • Incluez les prérequis pour l’exécution de la procédure. Par exemple, répertoriez les scripts ou informations d’identification requis qui doivent être collectés.

    • Capturez la cause racine de l’incident et effectuez une atténuation avant de commencer la récupération. Par exemple, si la cause de l’incident est un problème de sécurité, atténuez ce problème avant de récupérer les systèmes affectés dans votre environnement de basculement.

  • Selon la conception de la redondance de votre charge de travail, vous devrez peut-être effectuer un travail de post-basculement important avant de rendre la charge de travail à nouveau disponible pour vos clients. Le travail post-basculement peut inclure des mises à jour DNS, des mises à jour de base de données chaîne de connexion et des modifications de routage du trafic. Capturez l’ensemble du travail post-basculement dans vos procédures de récupération.

    Notes

    Votre conception de redondance peut vous permettre de récupérer automatiquement des incidents majeurs entièrement ou partiellement. Assurez-vous donc que votre plan inclut des processus et des procédures autour de ces scénarios. Par exemple, si vous disposez d’une conception entièrement active-active qui couvre des zones ou des régions de disponibilité, vous pourriez être en mesure de basculer automatiquement en toute transparence après une zone de disponibilité ou une panne régionale et de réduire les étapes de votre plan de récupération d’urgence qui doivent être effectuées. De même, si vous avez conçu votre charge de travail à l’aide d’empreintes de déploiement, vous risquez de ne subir qu’une panne partielle si les empreintes sont déployées de manière zonée. Dans ce cas, votre plan de récupération d’urgence doit couvrir la façon de récupérer les empreintes dans des zones ou régions non affectées.

  • Si vous devez redéployer votre application dans l’environnement de basculement, utilisez les outils pour automatiser le processus de déploiement autant que possible. Assurez-vous que vos pipelines DevOps ont été prédéployés et configurés dans les environnements de basculement afin de pouvoir commencer immédiatement les déploiements de vos applications. Utilisez des déploiements automatisés de bout en bout, avec des portes d’approbation manuelles si nécessaire, pour garantir un processus de déploiement cohérent et efficace. La durée complète du déploiement doit s’aligner sur vos objectifs de récupération.

    • Lorsqu’une étape du processus de déploiement nécessite une intervention manuelle, documentez les étapes manuelles. Définissez clairement les rôles et les responsabilités.
  • Automatisez autant que possible la procédure. Dans vos scripts, utilisez la programmation déclarative, car elle autorise l’idempotence. Lorsque vous ne pouvez pas utiliser la programmation déclarative, veillez au développement et à l’exécution de votre code personnalisé. Utilisez la logique de nouvelle tentative et la logique de disjoncteur pour éviter de perdre du temps sur les scripts qui sont bloqués sur une tâche interrompue. Étant donné que vous exécutez ces scripts uniquement en cas d’urgence, vous ne souhaitez pas que les scripts mal développés causent plus de dommages ou ralentissent votre processus de récupération.

    Notes

    L’automatisation présente des risques. Les opérateurs formés doivent surveiller attentivement les processus automatisés et intervenir si un processus rencontre des problèmes. Pour réduire le risque que l’automatisation réagisse aux faux positifs, soyez minutieux dans vos exercices de récupération d’urgence. Testez toutes les phases du plan. Simuler la détection pour générer des alertes, puis parcourir l’ensemble de la procédure de récupération.

    N’oubliez pas que vos exercices de récupération d’urgence doivent valider ou informer les mises à jour de vos métriques cibles de récupération. Si vous constatez que votre automatisation est sensible aux faux positifs, vous devrez peut-être augmenter vos seuils de basculement.

  • Séparez le plan de restauration automatique du plan de récupération d’urgence pour éviter toute confusion potentielle avec les procédures de récupération d’urgence. Le plan de restauration automatique doit suivre toutes les recommandations de développement et de maintenance du plan de récupération d’urgence et doit être structuré de la même manière. Toutes les étapes manuelles nécessaires au basculement doivent être mises en miroir dans le plan de restauration automatique. La restauration automatique peut se produire rapidement après le basculement ou prendre des jours ou des semaines. Considérez la restauration automatique comme distincte du basculement.

    • La nécessité de restaurer est situationnelle. Si vous acheminez le trafic entre des régions pour des raisons de performances, l’échec de la restauration de la charge initiale dans la région de basculement est important. Dans d’autres cas, vous avez peut-être conçu votre charge de travail pour qu’elle fonctionne entièrement, quel que soit l’environnement de production dans lequel elle se trouve à tout moment.

Effectuer des exercices de récupération d’urgence

Une pratique de test de récupération d’urgence est aussi importante qu’un plan de récupération d’urgence bien développé. De nombreux secteurs ont des frameworks de conformité qui nécessitent un nombre spécifié d’exercices de récupération d’urgence à effectuer régulièrement. Quel que soit votre secteur d’activité, les exercices de récupération d’urgence réguliers sont essentiels à votre réussite.

Suivez ces recommandations pour réussir les extractions de récupération d’urgence :

  • Effectuer au moins une extraction de récupération d’urgence de production par an. Les exercices de table (en série sèche) ou les exercices de non-production permettent de s’assurer que les parties concernées connaissent leurs rôles et responsabilités. Ces exercices aident également les opérateurs à créer une familiarité (« mémoire musculaire ») en suivant les processus de récupération. Mais seules les foreuses de production testent réellement la validité du plan de récupération d’urgence et des métriques RTO et RPO. Utilisez vos exercices de production pour planifier les processus de récupération des composants et des flux afin de vous assurer que les objectifs RTO et RPO qui ont été définis pour votre charge de travail sont réalisables. Pour les fonctions qui échappent à votre contrôle, comme la propagation DNS, assurez-vous que les cibles RTO et RPO pour les flux qui impliquent ces fonctions prennent en compte les éventuels retards au-delà de votre contrôle.

  • Utilisez des perceuses sur table non seulement pour renforcer la familiarité des opérateurs chevronnés, mais également pour éduquer les nouveaux opérateurs sur les processus et procédures de récupération d’urgence. Les opérateurs supérieurs devraient prendre le temps de laisser les nouveaux opérateurs remplir leur rôle et watch d’opportunités d’amélioration. Si un nouvel opérateur est hésitant ou confus par une étape d’une procédure, passez en revue cette procédure pour vous assurer qu’elle est clairement écrite.

Considérations

  • L’exécution d’extractions de récupération d’urgence en production peut provoquer des défaillances catastrophiques inattendues. Veillez à tester les procédures de récupération dans les environnements hors production pendant vos déploiements initiaux.

  • Accordez autant de temps de maintenance que possible à votre équipe pendant les exercices. Lorsque vous planifiez le temps de maintenance, utilisez les métriques de récupération que vous capturez pendant le test en tant qu’allocations minimales nécessaires .

  • À mesure que vos pratiques d’extraction de récupération d’urgence évoluent, vous découvrez les procédures que vous pouvez exécuter en parallèle et celles que vous devez exécuter dans l’ordre. Au début de vos pratiques d’extraction, supposons que chaque procédure doit être exécutée dans l’ordre et que vous avez besoin de temps supplémentaire à chaque étape pour gérer les problèmes imprévus.

Facilitation Azure

De nombreux produits Azure disposent de fonctionnalités de basculement intégrées. Familiarisez-vous avec ces fonctionnalités et incluez-les dans les procédures de récupération.

Pour les systèmes IaaS (infrastructure as a service), utilisez Azure Site Recovery pour automatiser le basculement et la récupération. Reportez-vous aux articles suivants pour les produits PaaS courants :

Exemple

Consultez la série récupération d’urgence pour la plateforme de données Azure pour obtenir des conseils sur la préparation d’un patrimoine de données d’entreprise pour la récupération d’urgence.

Liste de contrôle de fiabilité

Reportez-vous à l’ensemble complet de recommandations.