Colete os dados de monitoramento corretos
Observar a integridade e a disponibilidade de sua solução de nuvem ajuda a criar uma compreensão dos sinais que você espera em seus sistemas para que você possa determinar quais dados deve coletar.
Este artigo faz parte de uma série do guia de monitoramento de nuvem.
Considerações sobre a coleta de dados
Faça a si mesmo estas perguntas para estabelecer critérios para uma configuração de monitoramento:
Composição do serviço: Qual a composição dos serviços? Essas dependências são monitoradas hoje? Em caso afirmativo, há várias ferramentas envolvidas e há uma oportunidade de consolidação sem introduzir riscos adicionais?
Defina estados de falha previsíveis: esses sinais são os sintomas da falha, não a causa. As ferramentas de monitoramento usam métricas e logs para diagnósticos avançados e análise de causa raiz.
SLA de serviço: O que é o SLA (Service Level Agreement, contrato de nível de serviço) do serviço e como você irá medi-lo e relatá-lo?
Design do painel de serviço: como deve ser a aparência do painel de serviço ao analisar incidentes? Como deve ser a aparência do painel para o proprietário do serviço e para a equipe que dá suporte ao serviço?
Métricas de recursos: quais métricas de recursos são produzidas pela solução que você precisa monitorar?
Pesquisa de logs: como o proprietário do serviço, as equipes de suporte e outros funcionários pesquisarão os logs?
Envolvimento das partes interessadas: inclua o proprietário do serviço de monitoramento, o gerente de operações de TI e outras partes interessadas durante a fase de planejamento. Continue a envolvê-los durante os ciclos de desenvolvimento e lançamento de suas soluções de monitoramento.
Dados confidenciais: quais dados confidenciais devo evitar coletar para aplicativos que não quero expor aos meus operadores?
A forma como você responde a essas perguntas e os critérios de alerta, determina como você usará a plataforma de monitoramento.
Avaliar os sinais de monitoramento necessários
Se você estiver implantando novas cargas de trabalho com uma nova solução de monitoramento ou migrando de uma plataforma de monitoramento existente ou de um conjunto de ferramentas de monitoramento, avaliar os sinais de monitoramento necessários é essencial. Projetar cuidadosamente os sinais necessários ajuda a impulsionar os resultados esperados e reduz o ruído.
Considere estes fatores:
- Acionável: Lembre-se, os dados de monitoramento precisam ser acionáveis para reduzir o ruído e os falsos positivos.
- Otimizado: otimize os dados coletados para fornecer uma visão holística da integridade geral do serviço.
- Instrumentação de incidentes: A instrumentação definida para identificar incidentes reais deve ser tão simples, previsível e confiável quanto possível.
Desenvolva uma configuração de monitoramento
Normalmente, o proprietário de um serviço de monitoramento e sua equipe aderem a um conjunto padrão de atividades para criar uma configuração de monitoramento. Essas atividades abrangem os estágios de planejamento, teste e validação em um ambiente de não produção e implantação em produção.
Para desenvolver configurações de monitoramento, a equipe se baseia em modos de falha conhecidos, resultados de teste de falhas simuladas e a experiência de vários indivíduos dentro da organização, como a central de serviços, o pessoal de operações, engenheiros e desenvolvedores.
Essas configurações são projetadas sob a suposição de que o serviço já existe, está passando por migração para a nuvem e não foi reestruturado. Para garantir que os resultados de qualidade de nível de serviço sejam alcançados, o monitoramento da integridade e da disponibilidade desses serviços no início do processo de desenvolvimento é essencial. Se o monitoramento do design do serviço ou aplicativo for considerado apenas uma reflexão tardia, os resultados provavelmente serão menos bem-sucedidos.
Para gerar uma resolução mais rápida do incidente, considere as seguintes recomendações:
Painéis de componentes individuais: defina um painel para cada componente de serviço para ajudar a identificar rapidamente quaisquer problemas conhecidos em qualquer área específica de seus aplicativos e infraestrutura.
Use métricas: utilize os sinais de métricas incorporados aos vários componentes para ajudar a diagnosticar e identificar resoluções ou soluções alternativas se você não conseguir identificar uma causa raiz.
Habilitar personalizações de painel: projete seus painéis para que você possa detalhar facilmente os dados dos painéis de monitoramento. Certifique-se de oferecer suporte à personalização dos modos de exibição dinamicamente, permitindo fácil filtragem e solução de problemas.
Adotar esse conjunto orientador de princípios pode ajudar a fornecer insights quase em tempo real e um melhor gerenciamento de seu serviço.