Estabelecer processos de gerenciamento de operações

À medida que sua empresa começa a operar cargas de trabalho no Azure, a próxima etapa é estabelecer um processo de gerenciamento e adequação operacional. Esse processo enumera, implementa, examina iterativamente e otimiza o estado operacional dessas cargas de trabalho.

Um processo de análise de adequação operacional garante que todo o portfólio de cargas de trabalho cumpra os compromissos de negócios quanto a desempenho, confiabilidade e custo. Esse processo alinha os esforços de equipes de TI central, centro de excelência em nuveme carga de trabalho para entregar excelência operacional em escala.

Estabelecer um processo principal de análise de adequação operacional

Crie um processo de análise de adequação operacional para entender totalmente os problemas resultantes da execução de cargas de trabalho em ambientes de produção e como corrigi-los e resolvê-los. Este artigo descreve um processo de análise de adequação operacional de alto nível que sua empresa pode usar para atingir esse objetivo.

Adequação operacional na Microsoft

Desde o início, muitas equipes da Microsoft estão envolvidas no desenvolvimento da plataforma Azure. É difícil garantir a qualidade e a consistência de um projeto tão grande e complexo. É preciso um processo robusto para enumerar e implementar regularmente requisitos fundamentais não funcionais.

Os processos seguidos pela Microsoft formam a base dos procedimentos descritos neste artigo.

Entender funções e modelos operacionais

O gerenciamento de operações é uma disciplina ampla, que envolve várias funções em toda a empresa. Dependendo do modelo operacional das organizações, essas funções podem operar em um ambiente definido em matriz, com várias entregas entre equipes de operações centralizadas e descentralizadas.

  • TI central/CCoE: essa função de tecnologia centralizada é responsável pelas ações de configuração, operações, governança e segurança de todos os ativos de tecnologia no portfólio de tecnologia.
  • Operações de nuvem: é uma função na organização de tecnologia centralizada que gerencia a integridade e as operações do portfólio de tecnologia. Tem a responsabilidade de garantir que o processo seja executado sem problemas, que cada função adjacente no processo tenha as ferramentas necessárias e que cada função subsequente responda pelas expectativas do processo.
  • Estratégia de nuvem: fornece conhecimento da empresa visando a identificar e priorizar compromissos, para manter os requisitos operacionais de várias cargas de trabalho. Essa função também compara o custo de mitigação ao impacto comercial e está na base da decisão final em relação à correção.
  • Equipe de carga de trabalho: responde pelo desenvolvimento e pelas operações de cargas de trabalho distintas que mapeiam para itens específicos de aplicativos de suporte, serviços e infraestrutura, sejam eles locais ou na nuvem. Essa função requer conhecimento profundo da arquitetura da carga de trabalho.

O modelo operacional de cada organização determina a responsabilidade e as atividades do dia a dia das funções acima:

  • Operações centralizadas: a equipe de TI central mantém total responsabilidade pelas operações. Os proprietários de carga de trabalho podem ter entrada em operações e configuração, mas não têm acesso para alterar ambientes de produção. Somente as operações de TI central e de nuvem podem fazer alterações operacionais para melhorar a adequação operacional.
  • Operações descentralizadas: as equipes de carga de trabalho são totalmente responsáveis por operações, geralmente por meio de um pipeline de CI/CD maduro e de automação de DevOps. Nesse modelo, não há suporte central para configuração, operações, governança ou segurança. Essa abordagem para operações está fora do escopo do Cloud Adoption Framework. Este modelo operacional deve ver o Azure Well-Architected Framework​ para obter diretrizes operacionais.
  • Operações corporativas: o centro de excelência em nuvem responde pelas operações. As equipes de operações de nuvem e de carga de trabalho compartilham a responsabilidade por aspectos específicos da adequação operacional.

Objetivo da análise

A adequação operacional é avaliada em todo o portfólio com o uso de algumas métricas: confiabilidade, desempenho e custo. Juntas, essas propriedades permitem avaliar rapidamente a integridade e a adequação de todos os ativos do portfólio. Essas métricas são avaliadas nas três elevações do gerenciamento de operações.

Elevações de operações

  • Linha de base de operações (ou linha de base aprimorada): avalia a adequação operacional em todos os ativos implantados, independentemente da sua função. Essa visão ampla das operações permite a varredura de alterações e grandes impactos, mas é limitada pela falta de visibilidade sobre a arquitetura de cargas de trabalho individuais. Todos os recursos implantados na nuvem devem ser cobertos por uma linha de base de operações com suporte regular da equipe de operações de nuvem. Alguns ambientes podem exigir maior grau de suporte operacional para suprir as necessidades da linha de base aprimorada.
  • Operações de plataforma: avalia a adequação operacional de plataformas de tecnologia centralizadas. Essa vista de operações é mais refinada, pois considera a arquitetura da plataforma e como as alterações na solução afetarão a adequação operacional. Alterações em plataformas de tecnologia centrais podem ter grande impacto no downstream em cargas de trabalho com suporte. Todas as plataformas críticas devem receber suporte dedicado de uma equipe de TI central.
  • Operações de carga de trabalho: avalia a adequação operacional de uma carga de trabalho individual. Essa exibição de operações é muito mais refinada e deve ser considerada quando melhorias na adequação operacionais exigem alterações na arquitetura de uma carga de trabalho. As operações de carga de trabalho devem aderir aos princípios do Azure Well-Architected Framework. Todas as cargas de trabalho críticas com ciclo ativo de DevOps devem receber suporte dedicado de uma equipe de carga de trabalho.

O objetivo da análise de adequação operacional é avaliar regularmente a adequação operacional em todos os níveis. Os aprimoramentos identificados podem ser aplicados no nível correto para informar as alterações necessárias ao gerenciamento do portfólio geral.

Processo de análise de adequação operacional

A chave para manter o desempenho e a continuidade do portfólio de uma empresa é implementar um processo de análise de adequação operacional.

Uma visão geral do processo de revisão de adequação operacional

Em um nível elevado, o processo conta com duas fases. Na fase de pré-requisitos, os requisitos são estabelecidos e mapeados para serviços de suporte. Essa fase é menos frequente; ocorrendo talvez uma vez ao ano ou quando novas operações são introduzidas. A saída da fase de pré-requisitos é usada na fase de fluxo. A fase de fluxo ocorre com mais frequência, por exemplo, mensalmente.

Fase de pré-requisitos

As etapas nessa fase capturam os requisitos para a condução de uma análise regular do portfólio e de qualquer carga de trabalho de missão crítica.

  1. Identificar operações de negócios críticas. Identificar as operações de negócios críticas para a empresa com base nos compromissos de negócios acordados. Operações de negócios são independentes de qualquer funcionalidade de serviço de suporte. Em outras palavras, as operações de negócios representam atividades reais que a empresa precisa realizar e recebem suporte de um conjunto de serviços de TI.

    O termo crítico (ou comercialmente crítico), reflete um grave impacto nos negócios se a operação for impedida. Por exemplo, um varejista online pode ter uma operação de negócios, como "permitir que um cliente adicione um item a um carrinho de compras" ou "processar um pagamento por cartão de crédito". Se uma dessas operações falhar, o cliente não poderá concluir a transação e a empresa perderá vendas.

  2. Mapear operações para serviços. Mapear as operações comerciais críticas para os serviços de TI (operações de linha de base, plataforma ou carga de trabalho) que lhes oferecem suporte. Qualquer plataforma de tecnologia ou carga de trabalho necessária para oferecer suporte a uma função comercial crítica também deve ser identificada, para mapear operações e serviços para as equipes responsáveis.

  3. Analisar dependências de serviços. A maioria das operações de negócios exige orquestração entre várias cargas de trabalho de suporte e plataformas de tecnologia. É importante entender as dependências entre cada conjunto de ativos de suporte e o fluxo de transações críticas para a missão nesses serviços.

    Considere também as dependências entre os serviços locais e do Azure. No exemplo do carrinho de compras, o serviço de gerenciamento de estoque pode ser hospedado localmente e ingerir dados inseridos por funcionários de um depósito físico. No entanto, ele pode armazenar dados fora do local em um serviço do Azure, como o Armazenamento do Azure, ou em um banco de dados, como Azure Cosmos DB.

O resultado dessas atividades é um conjunto de métricas de scorecard para o gerenciamento de operações. O scorecard mede critérios como confiabilidade, desempenho e custo. As métricas de scorecard expressam os critérios operacionais que você espera que o serviço cumpra.

O scorecard deve ser expresso em termos simples, para facilitar uma discussão significativa entre os proprietários dos negócios e as equipes de operações em nuvem e carga de trabalho. Por exemplo, uma métrica de scorecard para confiabilidade pode ser codificada por cores com base no cumprimento do SLA acordado. Verde significa cumprir o SLA definido, amarelo significa falha no cumprimento dos critérios definidos, mas implementação ativa de uma correção planejada, e vermelho significa falha no cumprimento dos critérios definidos sem plano ou ação.

É importante enfatizar que essas métricas devem refletir diretamente os compromissos dos negócios.

Fase de análise do serviço

A fase de análise do serviço é o núcleo do processo de análise de adequação operacional. Ele envolve estas etapas:

  1. Medir métricas de serviço. Use as métricas de scorecard para monitorar o desempenho em cada nível do gerenciamento de operações, visando a garantir que os serviços correspondam aos compromissos de negócios. Serviços de inventário e visibilidade na linha de base de operações são essenciais. Se você não puder monitorar um conjunto de recursos em relação aos compromissos comerciais, considere as métricas de scorecard correspondentes como “vermelho”. Nesse caso, a primeira etapa de correção é implementar o monitoramento de serviço apropriado. Por exemplo, se a empresa espera que um serviço opere com 99,99% de disponibilidade sem que haja qualquer telemetria de produção em vigor para medir a disponibilidade, você deve presumir que não está cumprindo o requisito.

  2. Planejar uma correção. Para cada compromisso de negócios para o qual as métricas fiquem abaixo de um limite aceitável, determine a equipe de operações apropriada para executar a correção necessária. Essa equipe é responsável por calcular o custo da correção do serviço, para devolver as operações a um nível aceitável. Se o custo de correção do problema exceder o orçamento alocado, a equipe de TI central/CCoE deverá analisar o fato com a equipe de estratégia de nuvem para avaliar investimentos adicionais.

  3. Implementar a correção. Após a aceitação de um plano de correção da equipe de operações de nuvem ou de carga de trabalho, implemente-o. Relate o status da implementação sempre que analisar as métricas de scorecard.

Esse processo é iterativo. A equipe de TI central/CCoE é responsável por gerenciar o processo e relatar seu andamento para a equipe de estratégia de nuvem. Essa equipe deve se reunir regularmente para analisar os projetos de correção existentes, iniciar a análise fundamental de novas cargas de trabalho e rastrear o scorecard geral da corporação. Deve também ter autoridade para responsabilizar as equipes de correção (operações de nuvem ou de carga de trabalho) caso estejam em atraso ou deixem de cumprir métricas.

Reunião de análise

Recomendamos que sua adequação operacional seja analisada regularmente. As equipes de TI central/CCoE e de operações de nuvem devem comparecer a essa análise. As equipes de estratégia de nuvem e operações de carga de trabalho são incentivadas a participar, mas são operacionais. Exemplo de frequência: a equipe principal pode se reunir mensalmente para se alinhar quanto aos planos e responsabilizar várias equipes de operações. Trimestralmente, a equipe de estratégia de nuvem e todas as de carga de trabalho podem se reunir para entender o status e as métricas.

Adapte os detalhes do processo e a reunião para atender às suas necessidades específicas. Recomendamos as seguintes considerações como ponto de partida:

  • Operações centralizadas: é improvável que as equipes de carga de trabalho participem ativamente do processo, mas elas devem ser incluídas em relatórios para fins de visibilidade.
  • Operações descentralizadas: a equipe de operações de nuvem deve compartilhar práticas recomendadas usadas para melhorar as operações de plataformas de tecnologia com as equipes de carga de trabalho. As equipes de carga de trabalho devem compartilhar alterações em suas respectivas cargas de trabalho para identificar melhorias que podem ser aplicadas a plataformas de tecnologia e à linha de base de operações.
  • Gerenciamento Automatizado do Azure. O Gerenciamento Automatizado do Azure monitora automaticamente a adequação operacional em toda a linha de base de operações e automatiza a aplicação de várias estratégias de correção em todo o portfólio.
  • Assistente do Azure. O Assistente do Azure fornece recomendações personalizadas com base no seu uso e nas configurações para ajudar a otimizar seus recursos. Por padrão, essa ferramenta fornece recomendações em uma assinatura para melhorar a linha de base de operações. Ele também pode ser usado de forma mais granular para identificar melhorias em plataformas de tecnologia ou em cargas de trabalho individuais.
  • Microsoft Azure Well-Architected Framework: diretrizes para melhorar as operações de carga de trabalho ou orientar operações descentralizadas.