Supervisión de problemas operativos en el área de trabajo de Log Analytics de Azure Monitor

Para mantener el rendimiento y la disponibilidad del área de trabajo de Log Analytics en Azure Monitor, es necesario detectar con antelación los problemas que surjan. En este artículo se describe cómo supervisar el estado del área de trabajo de Log Analytics con los datos de la tabla Operación. Esta tabla se incluye en cada área de trabajo de Log Analytics. Contiene mensajes de error y advertencias que se producen en el área de trabajo. Se recomienda crear alertas para problemas que tengan el nivel de Advertencia y Error.

Permisos necesarios

Debe tener los permisos de Microsoft.OperationalInsights/workspaces/query/*/read para las áreas de trabajo de Log Analytics que consulte, tal y como los proporciona el Rol integrado de lector de Log Analytics, por ejemplo.

Función _LogOperation

Los registros de Azure Monitor envían información sobre cualquier problema a la tabla Operación del área de trabajo donde se produjo el problema. La función _LogOperation del sistema se basa en la tabla Operation (Operación) y proporciona un conjunto simplificado de información para el análisis y la generación de alertas.

Columnas

La función _LogOperation devuelve las columnas de la tabla siguiente.

Columna Descripción
TimeGenerated Hora a la que se produjo el incidente en UTC.
Category Grupo de categorías de operaciones. Se puede usar para filtrar los tipos de operaciones y ayudar a crear alertas y auditorías del sistema más precisas. Consulte la siguiente sección para obtener una lista de categorías.
Operación Descripción del tipo de operación. La operación puede indicar que se alcanzó uno de los límites de Log Analytics, una incidencia relacionada con el proceso de back-end o cualquier otro mensaje de servicio.
Nivel Nivel de gravedad del problema:
- Info (Info.): no precisa atención específica.
- Advertencia: no se completó el proceso tal como se esperaba y precisa atención.
- Error: se produjo un error en el proceso y este precisa atención urgente.
Detalle Descripción detallada de la operación que incluye un mensaje de error específico.
_ResourceId Identificador de recurso del recurso de Azure relacionado con la operación.
Computer Nombre del equipo si la operación está relacionada con un agente de Azure Monitor.
CorrelationId Se utiliza para agrupar operaciones relacionadas consecutivas.

Categorías

En la tabla siguiente se describen las categorías de la función _LogOperation.

Category Descripción
Ingesta de datos Operaciones que forman parte del proceso de ingesta de datos.
Agente Indica un problema con la instalación del agente.
datos, recopilación Operaciones relacionadas con los procesos de recopilaciones de datos.
Destino de la solución Se procesó la operación de tipo ConfigurationScope.
Solución de evaluación Se ejecutó un proceso de evaluación.

Ingesta de datos

Las operaciones de ingesta son problemas que se produjeron durante la ingesta de datos, e incluyen notificaciones de que se han alcanzado los límites del área de trabajo de Log Analytics. Las condiciones de error de esta categoría podrían sugerir una pérdida de datos, por lo que es importante supervisarlas. Consulte Límites de servicio de Azure Monitor para conocer los límites de servicio de las áreas de trabajo de Log Analytics.

Importante

Si va a solucionar problemas de recopilación de datos para un escenario en el que se usa una regla de recopilación de datos (DCR), como el agente de Azure Monitor o la API de ingesta de registros, vea Supervisión y solución de problemas de recopilación de datos de DCR en Azure Monitor para obtener información adicional sobre la solución de problemas.

Operación: recopilación de datos detenida

"Recopilación de datos detenida debido a que se ha alcanzado el límite diario de datos gratuitos. Estado de ingesta = OverQuota"

En los últimos siete días, la recopilación de registros alcanzó el límite diario establecido. El límite se establece como el área de trabajo establecida en nivel Gratis o el límite de recopilación diario se configuró para esta área de trabajo. Una vez que la recopilación de datos alcanza el límite establecido, se detiene automáticamente durante el día y se reanudará solo en el siguiente día de recopilación.

Acciones recomendadas:

  • Compruebe la tabla _LogOperation para obtener información sobre los eventos de recopilación detenida y recopilación reanudada:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection".
  • Cree una alerta en el evento de operación "Recopilación de datos detenida". Esta alerta le notificará cuando alcance el límite de recopilación.
  • Se perderán los datos recopilados después de alcanzar el límite de recopilación diario. Use el panel Información del área de trabajo para revisar las tasas de uso de cada origen. O bien, puede administrar el volumen de datos diario máximo o cambiar el plan de tarifa a uno que se ajuste al patrón de tarifas de recopilación.
  • La tasa de recopilación de datos se calcula por día y se restablece al principio del día siguiente. También puede supervisar un evento de reanudación de recopilación mediante la creación de una alerta en el evento operation "Recopilación de datos reanudada".

Operación: tarifa de ingesta

"La tasa de volumen de ingesta de datos ha superado el umbral en el área de trabajo: {0:0,00} MB por minuto y se han eliminado los datos".

Acciones recomendadas:

  • Compruebe la tabla _LogOperation para ver un evento de tasa de ingesta:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
    se envía un evento a la tabla Operación del área de trabajo cada seis horas mientras se siga superando el umbral.
  • Cree una alerta en el evento de operación "Recopilación de datos detenida". Esta alerta le notificará cuando alcance el límite.
  • Los datos que se recopilaron hasta que la tarifa de ingesta alcanzó el 100 % se descartarán y se perderán. Use el panel Información del área de trabajo para revisar los patrones de uso e intentar reducirlos.
    Para obtener más información, consulte:

Operación: recuento máximo de columnas de tabla

"Se han eliminado los datos de tipo <nombre de tabla> porque el número de campos <nuevo recuento de campos> está por encima del límite de campos personalizados <límite actual del recuento de campos> por tipo de datos".

Acciones recomendadas: para las tablas personalizadas, puede analizar los datos en consultas.

Operación: validación del contenido de los campos

"Los valores <nombre de campo> de los siguientes campos del tipo <nombre de tabla> se han recortado al tamaño máximo permitido, <límite de tamaño del campo> bytes. Ajuste la entrada en consecuencia".

Los registros de Azure procesaron un campo mayor que el tamaño del límite. El campo se ha recortado al límite de campos permitido. No se recomienda enviar campos que superen el límite permitido, ya que esto provocará la pérdida de datos.

Acciones recomendadas:

Compruebe el origen del tipo de datos afectado:

  • Si los datos se envían a través de la API del recopilador de datos HTTP, deberá cambiar el código o script para dividir los datos antes de que se ingieran.
  • Para los registros personalizados recopilados por el agente de Log Analytics, cambie la configuración de registro de la aplicación o herramienta.
  • Para cualquier otro tipo de datos, genere un caso de soporte técnico. Para obtener más información, consulte Límites de servicio de Azure Monitor.

Recopilación de datos

En la sección siguiente se proporciona información sobre la recopilación de datos.

Operación: recopilación de registros de actividad de Azure

"Se ha perdido el acceso a la suscripción. Asegúrese de que el <identificador de la suscripción> está en el <identificador de inquilino> del inquilino de Microsoft Entra. Si la suscripción se transfiere a otro inquilino, no hay ningún impacto en los servicios, pero la información del inquilino podría tardar hasta una hora en propagarse.

En algunas situaciones, como cuando debe pasar una suscripción a un inquilino diferente, los registros de actividad de Azure podrían dejar de fluir al área de trabajo. En esos casos, es necesario volver a conectar la suscripción siguiendo el proceso descrito en este artículo.

Acciones recomendadas:

  • Si la suscripción mencionada en el mensaje de advertencia ya no existe, vaya al panel Conector de registro de actividad heredado en Clásico. Seleccione la suscripción pertinente y, a continuación, seleccione el botón Desconectar.
  • Si ya no tiene acceso a la suscripción mencionada en el mensaje de advertencia:
    • Siga el paso anterior para desconectar la suscripción.
    • Para seguir recopilando registros de esta suscripción, póngase en contacto con su propietario para corregir los permisos y vuelva a habilitar la recopilación de registros de actividad.
  • Cree una configuración de diagnóstico para enviar el registro de actividad a un área de trabajo de Log Analytics.

Agente

En la sección siguiente se proporciona información sobre los agentes.

Operación: agente de Linux

"Se ha producido un error en dos aplicaciones de configuración consecutivas de la configuración de OMS"

Las opciones de configuración del portal han cambiado.

Acción recomendada: esta incidencia se genera en caso de que haya una incidencia para que el Agente recupere la nueva configuración. Para mitigar esta incidencia, deberá volver a instalar el agente. Compruebe la tabla _LogOperation del evento del agente:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

En la lista se muestran los identificadores de recursos en los que el agente tiene una configuración incorrecta. Para mitigar esta incidencia, deberá volver a instalar los agentes enumerados.

Las reglas de alertas

Use alertas de búsqueda de registros de Azure Monitor para que se le notifique de forma anticipada cuando se detecte un problema en el área de trabajo de Log Analytics. Use una estrategia que le permita responder de forma oportuna a las incidencias y, al mismo tiempo, reducir los costos. A su suscripción se le cobrará por cada regla de alerta como se muestra en Precios de Azure Monitor.

Una estrategia recomendada es comenzar con dos reglas de alerta en función del nivel del problema. Use una frecuencia corta, cada 5 minutos para errores, por ejemplo, y una frecuencia más larga, 24 horas para advertencias, por ejemplo. Dado que los errores indican una posible pérdida de datos, querrá responder a ellos rápidamente para minimizar cualquier pérdida. Las advertencias suelen indicar un problema que no requiere atención inmediata, por lo que puede revisarlas diariamente.

Use el proceso que se describe en Creación, visualización y administración de alertas de búsqueda de registros mediante Azure Monitor para crear las reglas de alerta de búsqueda de registros. En las secciones siguientes se describen los detalles de cada regla.

Consultar Valor del umbral Período Frecuencia
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1440 1440

Estas reglas de alerta responden igual a todas las operaciones con error o advertencia. A medida que se familiarice con las operaciones que generan alertas, puede que quiera responder de forma diferente a operaciones concretas. Por ejemplo, puede que quiera enviar notificaciones a distintas personas con determinadas operaciones.

Para crear una regla de alerta para una operación específica, use una consulta que incluya las columnas Category (Categoría) y Operation (Operación).

En el ejemplo siguiente se crea una alerta de advertencia cuando la tasa de volumen de ingesta alcanza el 80 % del límite:

  • Destino: Selección del área de trabajo de Log Analytics
  • Criterios:
    • Nombre de señal: Búsqueda de registros personalizada
    • Consulta de búsqueda: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • Basado en: Número de resultados
    • Condición: Mayor que
    • Umbral: 0
    • Período: 5 (minutos)
    • Frecuencia: 5 (minutos)
  • Nombre de regla de alertas: Límite de datos diario alcanzado
  • Gravedad: advertencia (gravedad 1)

En el ejemplo siguiente se crea una alerta de advertencia cuando la recopilación de datos ha alcanzado el límite diario:

  • Destino: Selección del área de trabajo de Log Analytics
  • Criterios:
    • Nombre de señal: Búsqueda de registros personalizada
    • Consulta de búsqueda: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • Basado en: Número de resultados
    • Condición: Mayor que
    • Umbral: 0
    • Período: 5 (minutos)
    • Frecuencia: 5 (minutos)
  • Nombre de regla de alertas: Límite de datos diario alcanzado
  • Gravedad: advertencia (gravedad 1)

Pasos siguientes