Recomendaciones para diseñar una estrategia confiable de supervisión y alertas

Se aplica a esta recomendación de lista de comprobación de confiabilidad del marco de trabajo bien diseñado de Azure:

RE:10 Mida y publique los indicadores de mantenimiento de la solución. Capture continuamente el tiempo de actividad y otros datos de confiabilidad de la carga de trabajo y también de componentes individuales y flujos clave.

En esta guía se describen las recomendaciones para diseñar una estrategia confiable de supervisión y alertas. Implemente esta estrategia para mantener informados a los equipos de operaciones el estado de mantenimiento del entorno y asegurarse de que cumple los objetivos de confiabilidad establecidos para la carga de trabajo.

Definiciones

Término Definición
Métricas Valores numéricos que se recopilan a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento determinado.
Registros del recurso Datos que genera un sistema. Proporciona información sobre el estado del sistema.
Traces Datos que proporcionan información sobre la ruta de acceso que una solicitud viaja a través de servicios y componentes.

Estrategias de diseño principales

Antes de crear una estrategia de supervisión y alertas, realice las siguientes tareas para la carga de trabajo como parte del planeamiento de confiabilidad:

Cree una estrategia de supervisión y alertas para asegurarse de que la carga de trabajo funciona de forma confiable. Una estrategia de supervisión y alertas proporciona conocimiento a los equipos de operaciones para que se les notifiquen los cambios en la condición de la carga de trabajo y puedan solucionar rápidamente los problemas. Cree una estrategia de supervisión sólida y confiable mediante la creación de un modelo de mantenimiento para los flujos críticos y los componentes que componen estos flujos críticos. El modelo de mantenimiento define estados correctos, degradados y incorrectos. Diseñe la posición operativa para detectar inmediatamente los cambios en estos estados. Cuando los estados de mantenimiento cambian de correcto a degradado o incorrecto, los mecanismos de alerta desencadenan las medidas correctivas automáticas y notifican a los equipos adecuados.

Implemente las siguientes recomendaciones para diseñar una estrategia de supervisión y alertas que cumpla los requisitos de su negocio.

Implementación de una estrategia general de supervisión

  • Comprenda la diferencia entre las métricas, los registros y los seguimientos.

  • Habilite el registro para todos los recursos en la nube. Use la automatización y la gobernanza en las implementaciones para habilitar el registro de diagnóstico en todo el entorno.

  • Reenvíe todos los registros de diagnóstico a una plataforma de análisis y receptor de datos centralizado, como un área de trabajo de Log Analytics. Si tiene requisitos de soberanía de datos regionales, debe usar receptores de datos locales en las regiones que están sujetos a esos requisitos.

Compensación: existen implicaciones de costos para almacenar y consultar registros. Observe cómo el análisis de registros y la retención afectan al presupuesto y determine el mejor equilibrio de uso para satisfacer sus requisitos. Para obtener más información, consulte Procedimientos recomendados para la optimización de costos.

  • Si las cargas de trabajo están sujetas a uno o varios marcos de cumplimiento, algunos de los registros de componentes que controlan la información confidencial también están sujetos a esos marcos. Envíe los registros de componentes pertinentes a un sistema de administración de eventos e información de seguridad (SIEM), como Microsoft Sentinel.

  • Cree una directiva de retención de registros que incorpore los requisitos de retención a largo plazo que los marcos de cumplimiento imponen a la carga de trabajo.

  • Use el registro estructurado para todos los mensajes de registro para optimizar la consulta de los datos de registro.

  • Configure alertas para que se desencadenen cuando los valores superen umbrales críticos que se correlacionan con un cambio de estado del modelo de mantenimiento, como verde a amarillo o rojo.

    La configuración del umbral es una práctica de mejora continua. A medida que evoluciona la carga de trabajo, es posible que cambien los umbrales que defina. En algunos casos, los umbrales dinámicos son una buena opción para la estrategia de supervisión.

  • Considere la posibilidad de usar alertas cuando los estados mejoran, como rojo a amarillo o rojo a verde, para que los equipos de operaciones puedan realizar un seguimiento de estos eventos para futuras referencias.

  • Visualice el estado en tiempo real de su entorno.

  • Use los datos recopilados durante los incidentes para mejorar continuamente los modelos de mantenimiento y la estrategia de supervisión y alertas.

  • Incorpore servicios de supervisión y alertas de plataforma en la nube, entre los que se incluyen:

  • Incorpore la supervisión y el análisis avanzados creados específicamente que ofrece el proveedor de nube, como las herramientas de información de Azure Monitor.

  • Implemente la supervisión de copia de seguridad y recuperación para capturar:

    • Estado de replicación de datos para asegurarse de que la carga de trabajo logra la recuperación dentro del objetivo de punto de recuperación de destino (RPO).

    • Copias de seguridad y recuperaciones correctas y con errores.

    • Duración de la recuperación para informar al planeamiento de la recuperación ante desastres.

Supervisión de aplicaciones

  • Cree sondeos de estado o compruebe las funciones y ejecútelos periódicamente desde fuera de la aplicación. Asegúrese de probar desde varias ubicaciones que estén geográficamente cerca de los clientes.

  • Registrar datos mientras la aplicación se ejecuta en el entorno de producción. Necesita información suficiente para diagnosticar la causa de problemas en el estado de producción.

  • Registre eventos en los límites del servicio. Incluya un identificador de correlación que traspase los límites del servicio. Si una transacción fluye a través de varios servicios y se produce un error en uno de ellos, el identificador de correlación le ayuda a realizar un seguimiento de las solicitudes en la aplicación e identificar por qué se produjo un error en la transacción.

  • Use el registro asincrónico. Las operaciones de registro sincrónicas a veces bloquean el código de la aplicación, lo que hace que las solicitudes se realicen copias de seguridad a medida que se escriben registros. Use el registro asincrónico para conservar la disponibilidad durante el registro de la aplicación.

  • Separe el registro de aplicaciones de la auditoría. Los registros de auditoría se mantienen normalmente debido a requisitos normativos o de cumplimiento y deben estar completos. Para evitar transacciones eliminadas, mantenga los registros de auditoría independientes de los registros de diagnóstico.

  • Use la correlación de telemetría para asegurarse de que puede asignar transacciones a través de la aplicación de un extremo a otro y los flujos críticos del sistema. Este proceso es fundamental para realizar análisis de causa principal (RCA) para errores. Recopile métricas y registros de nivel de plataforma, como porcentaje de CPU, red dentro, salida de red y operaciones de disco por segundo, desde la aplicación para informar a un modelo de mantenimiento y detectar y predecir problemas. Este enfoque puede ayudar a distinguir entre errores transitorios y no transitorios.

  • Use la supervisión de caja blanca para instrumentar la aplicación con métricas y registros semánticos. Recopile registros y métricas de nivel de aplicación, como el consumo de memoria o la latencia de solicitudes, de la aplicación para informar a un modelo de mantenimiento y detectar y predecir problemas.

  • Use la supervisión de caja negra para medir los servicios de plataforma y la experiencia del cliente resultante. La supervisión de caja negra prueba el comportamiento de las aplicaciones externamente visible sin conocimientos del interior del sistema. Este enfoque es común para medir indicadores de nivel de servicio (SLA) centrados en el cliente, objetivos de nivel de servicio (SLO) y acuerdos de nivel de servicio (SLA).

Nota:

Para obtener más información sobre la supervisión de aplicaciones, consulte Patrón de supervisión de puntos de conexión de mantenimiento.

Supervisión de datos y almacenamiento

  • Supervise las métricas de disponibilidad de los contenedores de almacenamiento. Cuando esta métrica cae por debajo del 100 por ciento, indica escrituras con errores. Es posible que se produzcan caídas transitorias en la disponibilidad cuando el proveedor de nube administra la carga. Realice un seguimiento de las tendencias de disponibilidad para determinar si hay un problema con la carga de trabajo.

    En algunos casos, una caída de las métricas de disponibilidad de un contenedor de almacenamiento indica un cuello de botella en la capa de proceso asociada al contenedor de almacenamiento.

  • Hay muchas métricas para supervisar las bases de datos. En el contexto de confiabilidad, las métricas importantes que se van a supervisar incluyen:

    • Duración de la consulta

    • Tiempos de espera

    • Tiempos de espera

    • Presión de memoria

    • Bloqueos

Facilitación de Azure

  • Azure Monitor es una solución de supervisión completa que se usa para recopilar, analizar y responder a los datos de supervisión de los entornos locales y en la nube.

  • Log Analytics es una herramienta de Azure Portal que se usa para editar y ejecutar consultas de registro en los datos del área de trabajo de Log Analytics.

  • Application Insights es una extensión de Azure Monitor. Proporciona características de supervisión del rendimiento de la aplicación (APM).

  • Azure Monitor Insights son herramientas de análisis avanzadas que ayudan a supervisar servicios de Azure, como máquinas virtuales, servicios de aplicaciones y contenedores. Las conclusiones se basan en Azure Monitor y Log Analytics.

  • Azure Monitor para soluciones de SAP es un producto de supervisión nativo de Azure para entornos de SAP que se ejecutan en la plataforma.

  • Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a gran escala.

  • El Centro de continuidad empresarial de Azure proporciona información sobre su patrimonio de continuidad empresarial. A medida que aplique los enfoques proporcionados para la continuidad empresarial y la recuperación ante desastres (BCDR), use el Centro de continuidad empresarial de Azure para centralizar la administración de la protección de continuidad empresarial en las cargas de trabajo híbridas y de Azure. El Centro de continuidad empresarial de Azure identifica los recursos que carecen de protección adecuada (a través de la copia de seguridad o la recuperación ante desastres) y realiza acciones correctivas. La herramienta facilita la supervisión unificada y le permite establecer el cumplimiento de gobernanza y auditoría a través de Azure Policy, todo lo que es convenientemente accesible en una sola ubicación.

  • Para conocer los procedimientos recomendados de varias áreas de trabajo, consulte Diseño de una arquitectura de área de trabajo de Log Analytics.

Ejemplo

Para ver ejemplos de soluciones de supervisión del mundo real, consulte Supervisión de aplicaciones web en azure y arquitectura de línea de base para un clúster de Azure Kubernetes Service.

  • Alertas de línea base de Azure Monitor (AMBA) es un repositorio central de definiciones de alertas que los clientes y asociados pueden usar para mejorar su experiencia de observabilidad a través de la adopción de Azure Monitor.

Lista de comprobación de confiabilidad

Consulte el conjunto completo de recomendaciones.