Características e ciclo de vida de um incidente

Concluído

Conforme você aprendeu na última unidade, um incidente é uma interrupção do serviço que afeta seus clientes e usuários finais. Os incidentes vêm em muitas formas, variando da lentidão de desempenho que frustra os usuários ("a lentidão é a novidade do momento") até falhas do sistema que deixam o serviço ou o site completamente indisponível por um período de tempo.

Características de um incidente

Incidentes geralmente são inesperados e parecem ocorrer no pior momento possível (como às duas da manhã ou quando você está absolutamente imerso em um projeto importante). É por isso que os incidentes costumam ser temidos e evitados, mesmo ao ponto em que as pessoas às vezes minimizam a importância de um incidente. A pressão interna às vezes é tão grande em uma organização que existe uma tentação de rotular incorretamente ou falhar em relatar uma interrupção por medo de uma eventual reprimenda.

Na melhor das hipóteses, os incidentes criam trabalho não planejado e, como você passa a maior parte do tempo fazendo o trabalho planejado, ao ter uma boa ideia do que deve estar fazendo, você provavelmente imagina incidentes como coisas ruins. No entanto, há outra maneira de vê-los: os incidentes são realmente investimentos* no fornecimento do valor que você está tentando entregar aos usuários finais. Seja qual for a causa do incidente ou da extensão do impacto, todos os incidentes têm uma coisa em comum: eles podem fornecer experiências de aprendizado valiosas.

Você deve considerar os incidentes como a pulsação de seus sistemas. Eles informam mais sobre o sistema do que você entendia anteriormente, e esse conhecimento é algo positivo. Quando você tem uma base sólida de monitoramento e sabe mais sobre o que está acontecendo no seu sistema, ele inevitavelmente vai gerar mais alertas e incidentes e oportunidades de resposta. Na pior das hipóteses, os incidentes informam o que está acontecendo e, portanto, aumentam a sua consciência operacional. Em um módulo anterior sobre monitoramento, sugerimos que esse foi um precursor importante para o trabalho de confiabilidade.

Ciclo de vida de um incidente

Se você quiser elevar o status da sua equipe de resposta a incidentes para de "elite/alto desempenho", deverá olhar além do conceito de uma interrupção de serviço ou incidente como uma linha do tempo simples e linear e abordá-lo de uma perspectiva cíclica.

Você pode separar o ciclo de vida de um incidente em fases distintas que seguem logicamente uma após a outra, em um ciclo que volta ao início. Cada vez que você seguir esse ciclo (e você fará isso várias vezes), se você realizou o procedimento corretamente, será possível retornar ao início com mais insights sobre seus sistemas. Com algum trabalho intencional, você também poderá estar mais bem preparado para responder de maneira rápida e eficaz na próxima vez que um incidente ocorrer.

Fases de um incidente

Dependendo do modelo usado, as fases individuais do processo de resposta a incidentes parecem um pouco diferentes. Para fins deste módulo, há cinco fases pelas quais você passa ao responder a um incidente:

  • Detecção: É nessa fase que o conhecimento de monitoramento de um módulo anterior neste roteiro de aprendizagem entra em cena. Suas ferramentas de monitoramento coletam as informações dos logs, analisam essas informações de acordo com os objetivos centrados no cliente que você configurou e enviam alertas acionáveis para que você saiba que a intervenção humana é necessária.
  • Resposta: Essa fase é o que acontece depois de você e sua equipe receberem esse alerta. Abordaremos essa fase detalhadamente neste módulo, então prepare-se para saber muito mais a respeito dessa ideia logo a seguir.
  • Correção: É nessa fase que você restaura os sistemas para a funcionalidade normal. A maneira como você faz isso depende da causa da interrupção do serviço. Colocar o serviço em funcionamento novamente e deixá-lo disponível para seus clientes é sua prioridade principal. No entanto, o trabalho não termina depois que isso é feito.
  • Análise: Para obter um valor duradouro dos incidentes, você precisa aprender com eles. Essa fase é o processo de reunir as informações sobre o que aconteceu durante o incidente e exatamente em que momento isso aconteceu para depois, fazendo as perguntas certas, descobrir o que você pode aprender com essas informações. Há um módulo inteiro sobre aprender com as falhas que aborda essa fase.
  • Preparação: Você deve incorporar as lições aprendidas na fase de análise à sua prática de operações. Se há itens de ação que ajudariam a evitar uma interrupção semelhante no futuro, eles também fazem parte desta fase.

Cycle diagram of circles labeled with phases from above. Circles are connected to next circle with arrows from phase to phase.

Antes de criar um plano de resposta a incidentes, você precisa entender as características e o valor dos incidentes e estar familiarizado com as fases do ciclo de vida do incidente. A próxima etapa é garantir que sua estratégia de resposta seja criada sobre uma base sólida.

Verificar seu conhecimento

1.

Quais deles podem ser considerados a "pulsação" do seu sistema?

2.

Qual das alternativas abaixo não é uma fase de um incidente?