Recomendações para projetar uma estratégia de resposta a emergências

Aplica-se a esta recomendação da lista de verificação de Excelência Operacional Bem Arquitetada: Power Platform

OE:07 Desenvolva uma prática de operações de emergência eficaz. Verifique se a carga de trabalho emite sinais de integridade significativos. Colete os dados resultantes e use-os para gerar alertas acionáveis que acionem respostas de emergência por meio de painéis e consultas. Defina claramente responsabilidades humanas, como rotações mediante chamada, gerenciamento de incidentes, acesso a recursos de emergência e execução post-mortem.

Este guia descreve as recomendações para projetar uma estratégia de resposta a emergências. Algumas de suas cargas de trabalho podem ser críticas à missão, e os problemas que surgem ao longo do ciclo de vida de uma carga de trabalho podem ser graves o suficiente para justificar declará-los emergências. Você pode implementar processos e procedimentos controlados e concentrados rigorosamente que a equipe pode seguir para garantir que um problema seja tratado de maneira calma e ordenada. As emergências naturalmente aumentam os níveis de estresse de todos e poderão acarretar um ambiente caótico se a equipe não estiver bem preparada. Para ajudar a minimizar o estresse e a confusão, projete uma estratégia de resposta, compartilhe a estratégia de resposta com a organização e realize um treinamento de resposta a emergências regular.

Estratégias-chave de design

Uma estratégia de resposta a emergências deve ser um conjunto bem definido de processos e procedimentos. Cada processo e procedimento deve ter scripts para garantir que cada etapa faça sua equipe progredir em direção à resolução rápida e segura de um problema. Para desenvolver uma estratégia de resposta a emergências, leve em consideração a seguinte visão geral:

  • Pré-requisitos
    • Desenvolver um sistema de monitoramento
    • Criar um plano de resposta a incidentes
  • Fases de incidente
    • Detecção e contenção
    • Triagem
  • Fases de pós-incidente
    • Análise de causa raiz (RCA)
    • Post-mortem
  • Atividade contínua
    • Análises de resposta a emergências

As seções a seguir fazem recomendações para cada uma dessas fases.

Sistema de monitoramento

Para ter uma estratégia de emergência resposta robusta, você precisa ter um sistema de monitoramento robusto, ou uma plataforma de observabilidade, em vigor. A plataforma de observabilidade deve ter as seguintes características:

  • Monitoramento holístico: certifique-se de monitorar completamente sua carga de trabalho de uma perspectiva de configuração e aplicação, e inclua monitoramento de infraestrutura se componentes de sua carga de trabalho estiverem hospedados na nuvem ou local. Certifique-se de que todos os componentes da sua carga de trabalho sejam cobertos pela sua estratégia de monitoramento. Por exemplo, se sua carga de trabalho interage com recursos do Azure ou um sistema local, inclua esses componentes em seu monitoramento.

  • Registro detalhado: habilite o registro detalhado para seus componentes para auxiliar nas investigações ao selecionar um problema. Estruture os logs de maneira que eles sejam fáceis de gerenciar. Envie logs automaticamente para coletores de dados a serem preparados para análise.

  • Painéis úteis: crie painéis com base no seu modelo de saúde, adaptados a cada equipe da sua organização. Diferentes equipes são responsáveis por diferentes aspectos da integridade da carga de trabalho.

  • Alertas acionáveis: crie alertas úteis para suas equipes de carga de trabalho. Evite alertas que não exijam ação das equipes. Muitos alertas desse tipo podem levar as pessoas a ignorar ou bloquear notificações de alerta.

  • Notificações automáticas: garanta que as equipes apropriadas recebam automaticamente alertas que exijam ação delas. Por exemplo, sua equipe de suporte de Nível 1 deve receber notificações para todos os alertas, enquanto seus engenheiros de segurança devem receber alertas apenas para eventos de segurança.

Saiba mais em Recomendações para projetar e criar uma estrutura de monitoramento.

Plano de resposta a incidentes

A base de uma estratégia de resposta a emergências é um plano de resposta a incidentes. Assim como em um plano de recuperação de desastres, defina clara e detalhadamente as funções, responsabilidades e procedimentos para responder a um incidente. O plano deve ser um documento com controle de versão e sujeito a revisões regulares que garantam a atualização.

Defina claramente os componentes a seguir no plano.

Direitos

Identifique um gerente de respostas a incidentes. Essa pessoa é proprietária do incidente, desde o início até a correção, passando pela análise de causa raiz. Um gerente de incidentes resposta garante que os processos sejam seguidos e que as partes apropriadas sejam informadas enquanto a equipe resposta executa seu trabalho.

Identifique um líder post-mortem. Esse indivíduo garante que os post-mortems sejam realizados logo após a resolução do incidente. Eles produzem um relatório, que ajuda a aplicar as descobertas resultantes do incidente.

Processos e procedimentos

A equipe da carga de trabalho deve definir e compreender critérios de emergência. Quando a equipe determina que um caso é grave, você pode declarar um desastre e iniciar o plano de recuperação de desastre. Em casos menos graves, o problema pode não atender aos critérios de um desastre, mas você ainda deve considerá-lo uma emergência, o que requer o início do plano de emergência resposta. Emergências podem ser internas à sua carga de trabalho, como bugs no código do seu aplicativo, ou resultado de um problema com uma dependência da sua carga de trabalho, como indisponibilidade de uma API ou de um banco de dados. Uma emergência também pode ser causada por uma interrupção do fornecedor (como um problema na ID do Microsoft Entra ou no Power Platform). A equipe de suporte deve ser capaz de determinar se um problema atende aos critérios de emergência, mesmo que a equipe não tenha visibilidade do problema subjacente.

Defina planos de comunicação e escalonamento com precisão. Com base no tipo de notificação de alerta que eles recebem, garanta que os membros da sua equipe de suporte de Nível 1 possam entrar em contato facilmente com as equipes apropriadas para encaminhar problemas.

Outros itens a serem incluídos

Documente todas as ferramentas padrão usadas durante incidentes para comunicação interna, como Microsoft Teams, e para rastrear as atividades ao longo do incidente, como ferramentas de emissão de tickets ou ferramentas de planejamento de backlog.

Documente as credenciais de emergência, também conhecidas como contas quebra-vidro. Inclua um guia passo a passo que descreva como elas devem ser usadas.

Crie instruções de emergência resposta analisar e mantenha um registro de quando os exercícios são realizados.

Documente quaisquer medidas legais ou regulatórias necessárias, como comunicar violações de dados.

Detecção e contenção de incidentes

Quando tem um sistema de monitoramento bem projetado que monitora anomalias e emite alertas automáticos para elas, você consegue detectar rapidamente problemas e determinar a gravidade. Se o problema for considerado uma emergência, o plano poderá ser iniciado. Em alguns casos, a equipe de suporte não é notificada pelo sistema de monitoramento. Os usuários podem relatar problemas ao suporte usando meios de comunicação da equipe de suporte. Ou eles podem entrar em contato com pessoas com quem trabalham regularmente ou que sabem que trabalham com você, Power Platform, como seus Power Platform administradores de serviço ou a equipe do Centro de Excelência. Não importa como a equipe de suporte é notificada, ela deve seguir sempre as mesmas etapas para validar o problema e determinar a gravidade. O desvio em relação ao plano de resposta pode adicionar estresse e confusão.

Triagem

A primeira etapa na correção do problema é identificar o componente da carga de trabalho que o está causando. As etapas seguidas por você durante a triagem dependem do tipo de problema. A equipe de uma determinada área de suporte de carga de trabalho deve criar procedimentos para incidentes relacionados ao seu trabalho. Por exemplo, as equipes de segurança devem fazer a triagem de problemas de segurança e seguir os scripts desenvolvidos por eles. É importante que as equipes sigam scripts bem definidos enquanto atuam nos esforços de triagem. Esses scripts devem ser instruções passo a passo que incluem processos de reversão para desfazer alterações que são ineficazes ou podem causar outros problemas. Depois que o problema for resolvido, siga processos bem definidos para trazer o componente afetado de volta para os caminhos do fluxo da carga de trabalho em segurança.

Relatórios da análise de causa raiz

O proprietário do incidente ou alguém que trabalhou próximo a ele deve criar os relatórios de análise de causa raiz (RCA). Essa estratégia garante uma contabilidade precisa do incidente. Normalmente, as organizações têm um modelo de RCA definido com diretrizes sobre como as informações são apresentadas e quais tipos de informações podem ou não ser compartilhadas. Se você precisar criar seu próprio modelo e diretrizes, garanta que as partes interessadas os revisem e os aprovem.

Post-mortems de incidente

Um indivíduo imparcial deve realizar post-mortems irrepreensíveis. Em sessões post-mortem, todos compartilham as descobertas de um incidente. Cada equipe envolvida no incidente resposta deve ser representada por indivíduos que trabalharam no incidente. Esses indivíduos devem comparecer à sessão preparados com exemplos de ações que foram bem-sucedidas e áreas que podem ser melhoradas. A sessão não é um fórum para atribuir culpas pelo incidente ou problemas que podem surgir durante o resposta. O líder de post-mortem deve sair da sessão com uma lista clara dos itens de ação concentrados na melhoria, tais como:

  • Melhorias no plano de resposta. Processos ou procedimentos talvez precisem ser reavaliados e reescritos para capturar melhor as ações indicadas.
  • Melhorias no sistema de monitoramento. Os limites podem precisar ser reavaliados para detectar o tipo específico de incidente antes, ou um novo monitoramento talvez precise ser implementado para detectar um comportamento que não tenha sido levado em conta.
  • Melhorias feitas na carga de trabalho. O incidente pode expor uma vulnerabilidade na carga de trabalho que deve ser resolvida como uma correção permanente.

Considerações

A estratégia de resposta a emergências deve estar intimamente alinhada com a estratégia de suporte geral do Power Platform. Trabalhe com seus administradores e a equipe do Centro de Excelência para discutir opções e processos de suporte e emergência resposta que já possam estar definidos. Power Platform

À medida que você define o processo de suporte e o caminho de escalonamento, é importante categorizar soluções compiladas com base na gravidade. Essa prática permite que você estabeleça processos que garantam que aplicativos críticos tenham as proteções necessárias para suportá-los, sem sufocar a inovação de cenários de produtividade ou sobrecarregar suas equipes de incidentes resposta. Ao definir os modelos de suporte, pense também em um caminho de graduação. Uma solução pode começar exigindo apenas suporte de nível de produtividade, mas crescer em funcionalidade ou base de usuários e exigir um nível maior de suporte. Defina como os criadores podem solicitar suporte mais formal e fazer a transição de uma solução para ambientes com suporte.

Facilitação do Power Platform

O Power Platform se integra ao Application Insights, que faz parte do ecossistema do Azure Monitor. Use essa integração para:

  • Receber telemetria sobre diagnóstico e desempenho capturados pela plataforma do Dataverse no Application Insights. É possível assinar para receber telemetria sobre operações realizadas pelos aplicativos no banco de dados do Dataverse e em aplicativos baseados em modelo. Essa telemetria fornece informações que é possível usar para realizar o diagnóstico e solucionar problemas relacionados aos erros e ao desempenho.

  • Conectar os aplicativos de tela ao Application Insights. Você pode usar essa análise para realizar o diagnóstico de problemas e compreender o que os usuários fazem com os aplicativos. É possível coletar informações para a tomar decisões comerciais melhores e aprimorar a qualidade de seus aplicativos.

  • Configure a Power Automate telemetria para fluir para Application Insights; por exemplo, para monitorar execuções de fluxo da nuvem e criar alertas para falhas de execução de fluxo da nuvem.

  • Capture dados de telemetria do seu Microsoft Copilot Studio copiloto para uso no Azure Application Insights. Você pode usar essa telemetria para monitorar mensagens registradas e eventos enviados de e para seu copiloto, tópicos a serem acionados durante conversas do usuário e eventos de telemetria personalizados que podem ser enviados de seus tópicos.

O Application Insights é uma solução abrangente para coletar, analisar e responder a dados de monitoramento de ambientes de nuvem e local. Ele inclui uma plataforma de alertas robusta que você pode configurar para notificações automáticas e outras ações.

O Kit de Automação do Power Platform é um conjunto de ferramentas que agiliza o uso e o suporte do Power Automate para desktop em projetos de automação. O kit fornece ferramentas que ajudam a gerenciar projetos de automação e monitorá-los para estimar o dinheiro economizado e o ROI (retorno sobre o investimento). Parte do Kit de Automação é o centro de controle, que complementa o recurso Monitor fluxo da área de trabalho existente. O foco principal do centro de controle é uma exibição do orquestrador para analistas de suporte e organizações monitorar, tomar uma medida e alertar quando necessário.

Próximas etapas