Princípios básicos da resposta a incidentes

Concluído

Hoje, as organizações se beneficiam da acessibilidade, da eficiência e da conveniência da nuvem, mas enfrentam muitos desafios à medida que passam por uma transformação digital que envolve a migração de partes de seus negócios para serviços de nuvem.

Alguns dos desafios comuns que você pode estar enfrentando em sua organização incluem:

  • Aumento do número de interrupções de serviço
  • Nenhum método eficaz de acompanhamento e resposta a incidentes (tudo é ad hoc e reacionário)
  • Tempo inaceitável para resolução
  • O tempo para resolução não está melhorando ou está ficando pior
  • As informações e o status são difíceis de encontrar
  • Recorrência dos mesmos problemas e erros

Para atender a esses desafios, você precisa de um plano de resposta a incidentes bem definido, criado sobre uma base sólida.

Base e pilares

A finalidade de ter uma base é ter resiliência e manter intacta a estrutura que se apoia nela. Em um módulo introdutório separado deste roteiro de aprendizagem, discutimos a ideia de que o trabalho de confiabilidade é criado no nível de base do monitoramento e que a resposta a incidentes está logo acima disso na hierarquia.

A resposta a incidentes propriamente dita também tem uma base. Há três pilares que dão suporte a um bom plano de resposta a incidentes:

  • Listas de participantes
  • Funções
  • Escalas

Nessa unidade, você descobrirá o que é cada um desses pilares e que papéis eles desempenham ao criar uma estratégia de resposta a incidentes que fará com que você avance rumo às suas metas de confiabilidade.

Listas de participantes

É essencial ter um bom plano, mas um plano é inútil sem pessoas que o executem. Portanto, o melhor lugar para começar é determinando quem espera-se que responda aos problemas e como informar a essas pessoas que a resposta delas é requerida.

A melhor maneira de resolver esse desafio é criar uma lista de participantes. Uma lista de participantes é uma listagem de pessoas que estão atribuídas à equipe que permanece disponível para solicitações. Essa equipe deve ser composta por vários engenheiros. Esses membros da equipe devem ter conhecimento e habilidades para resolver o tipo de problemas que pode ocorrer em seu ambiente e treinamento em resposta a incidentes.

No entanto, uma lista de nomes não é suficiente. Você precisa criar uma estrutura que envolva quem está disponível para solicitações em qualquer determinado momento e o que cada pessoa deve fazer. Aí entra o papel das funções.

Funções

As funções trazem ordem para o que seria uma resposta caótica ou, na melhor das hipóteses, ad hoc. Elas fazem isso definindo as funções específicas a serem assumidas por todas as pessoas em uma situação específica e o lugar de cada uma delas na "cadeia de comando". As funções podem variar de acordo com a organização ou mesmo por tipo de incidente, mas as seguintes funções devem geralmente fazer parte de uma equipe de resposta a incidentes organizada:

  • Respondente primário: Essa é a "pessoa de contato", que geralmente é a primeira pessoa em cena, ou seja, o primeiro engenheiro disponível para solicitações que é chamado quando um incidente ocorre.
  • Respondente secundário: É alguém que atua como um backup e poderá entrar em cena se o respondente primário não estiver disponível ou se um segundo olhar for necessário.
  • Especialistas no assunto (SMEs): Essas são pessoas que têm conhecimento aprofundado sobre um aspecto específico de suas operações. Eles estarão lá se os respondedores primários e secundários precisarem escalar o problema para alguém com mais conhecimento. Eles não estão disponíveis para solicitações o tempo todo, mas estão disponíveis quando suas habilidades especializadas são necessárias. Você deve manter uma lista de especialistas em vários assuntos (por exemplo, banco de dados, front-end, infraestrutura de rede, aplicativos Web, segurança cibernética e assim por diante).
  • Comandante de incidente: Essa é uma função importante em um incidente ou uma interrupção em larga escala que afeta muitos componentes diferentes e/ou requer coordenação entre várias equipes e sistemas diferentes. Um comandante de incidente será a pessoa que coordena uma grande parte da conversa e o esforço referente às atividades de resposta e correção. O comandante de incidente mantém o olhar no "panorama geral". Ele mantém um controle escrupuloso do que está acontecendo e de quem está fazendo o quê. Um comandante de incidente é ideal para garantir que os engenheiros permaneçam focados e estejam trabalhando nos respectivos esforços de correção, sem que possam desfazer nem se intrometer no trabalho uns dos outros.
  • Anotador: A função de anotador é para documentar a conversa relativa ao incidente com o máximo possível de detalhes. As equipes normalmente usam pontes telefônicas, teleconferências ou chat em vídeo para reunir todos e tentar entender o que está acontecendo, o que certamente pode ajudar a criar um espaço para a conversa. No entanto, é difícil abordar e entender detalhadamente o que os engenheiros estavam dizendo e fazendo a menos que esse conteúdo seja transcrito. Como resultado, um anotador é a pessoa que pode nos ajudar a documentar o máximo possível a fim de examinar essas informações mais tarde. O anotador captura todos os dados possíveis, não apenas o que os membros da equipe estão fazendo, mas também o que estão dizendo e até mesmo o que eles estão sentindo ou experienciando.
  • Coordenador de comunicação: Considere essa pessoa como "gerente de relações públicas" para o incidente. O coordenador de comunicação funciona em conjunto com o comandante de incidente para compartilhar informações sobre o incidente com aqueles que não estão envolvidos em trabalhar ativamente para resolver o incidente e recuperar-se dele. Isso pode incluir clientes, equipes de vendas e marketing, atendimento ao cliente e quaisquer outros stakeholders dentro ou fora da organização que precisem estar cientes do que está ocorrendo e o status de como a resposta e a correção estão progredindo.

Escalas

Agora você tem sua lista de participantes com as pessoas da equipe de resposta e atribuiu as funções apropriadas. A próxima e última etapa é criar uma escala, que é uma agenda que atribui os turnos para os quais cada pessoa está disponível para solicitação.

Há muitas maneiras diferentes de dividir turnos. O agendamento de turnos pode ser um processo estratégico complexo. Turnos não devem ser atribuídos aleatoriamente. Você deve planejar cuidadosamente o agendamento para torná-lo tão agradável para os membros da equipe e eficaz quanto possível.

Alguns métodos para o agendamento de turnos incluem:

  • 24 x 7: Essa é uma escala na qual os integrantes da equipe estão disponíveis para solicitações por vários dias seguidos. Essa é uma forma simples de alocar a cobertura de turnos, mas você precisa ter cuidado para limitar a duração. Escalas com turnos maiores do que três ou quatro dias podem ser prejudiciais à saúde geral da equipe de engenharia e, portanto, reduzem a confiabilidade de todo o sistema.
  • Turnos follow-the-sun: Esse é um modelo de turno no qual os engenheiros programam os respectivos turnos de disponibilidade para solicitações somente durante o horário de trabalho normal deles e, em seguida, entregam as respectivas responsabilidades de disponibilidade para solicitações no final do dia de trabalho para outro colega localizado em um fuso horário diferente.

Esses são apenas alguns exemplos de como as mudanças podem ser atribuídas. O ponto importante é dividir os turnos de uma forma que funcione melhor para os indivíduos em sua equipe de resposta. Há várias maneiras de personalizar turnos, especialmente para fins de semana, quando os engenheiros precisam de mais flexibilidade. Os engenheiros devem ser capazes de entregar facilmente a função a alguém quando ocorrerem conflitos não relacionados ao trabalho.

Verificar seu conhecimento

1.

Quais das opções a seguir são pilares da resposta a incidentes?

2.

O que a função de anotador faz como parte da resposta a incidentes?

3.

Você precisa de todas as funções mencionadas nesta unidade para responder com êxito a incidentes?