Monitorare i problemi operativi nell'area di lavoro di Log Analytics di Monitoraggio di Azure
Per mantenere le prestazioni e la disponibilità dell'area di lavoro di Log Analytics in Monitoraggio di Azure, è necessario essere in grado di rilevare in modo proattivo eventuali problemi che si verificano. Questo articolo descrive come monitorare l'integrità dell'area di lavoro di Log Analytics usando i dati nella tabella Operazione. Questa tabella è inclusa in ogni area di lavoro di Log Analytics. Contiene messaggi di errore e avvisi che si verificano nell'area di lavoro. È consigliabile creare avvisi per i problemi relativi al livello di avviso e errore.
Autorizzazioni obbligatorie
Occorrono autorizzazioni Microsoft.OperationalInsights/workspaces/query/*/read
per le aree di lavoro Log Analytics su cui si esegue la query, ad esempio le autorizzazioni fornite dal ruolo predefinito Lettore di Log Analytics.
funzione _LogOperation
Log di Monitoraggio di Azure invia informazioni su eventuali problemi alla tabella Operazione nell'area di lavoro in cui si è verificato il problema. La funzione di sistema _LogOperation
si basa sulla tabella Operazione e fornisce un set semplificato di informazioni per l'analisi e l'invio di avvisi.
Colonne
La funzione _LogOperation
restituisce le colonne nella tabella seguente.
Colonna | Descrizione |
---|---|
TimeGenerated | Ora in cui si è verificato l'evento imprevisto in formato UTC. |
Categoria | Gruppo di categorie di operazioni. Può essere usato per filtrare i tipi di operazioni e contribuire a creare avvisi e controllo del sistema più precisi. Per un elenco di categorie, vedere la sezione seguente. |
Operazione | Descrizione del tipo di operazione. L'operazione può indicare che è stato raggiunto uno dei limiti di Log Analytics, un problema correlato al processo back-end o qualsiasi altro messaggio del servizio. |
Livello | Livello di gravità del problema: - Info: nessuna attenzione specifica necessaria. - Avviso: il processo non è stato completato come previsto ed è necessaria attenzione. - Errore: processo non riuscito ed è necessaria l'attenzione. |
Dettagli | Descrizione dettagliata dell'operazione, include il messaggio di errore specifico. |
_ResourceId | ID risorsa della risorsa di Azure correlata all'operazione. |
Computer | Nome computer se l'operazione è correlata a un agente di Monitoraggio di Azure. |
CorrelationId | Utilizzato per raggruppare le operazioni correlate consecutive. |
Categorie
Nella tabella seguente vengono descritte le categorie della funzione _LogOperation
.
Categoria | Descrizione |
---|---|
Inserimento | Operazioni che fanno parte del processo di inserimento dati. |
Agente | Indica un problema relativo all'installazione dell'agente. |
Raccolta dati | Operazioni correlate ai processi di raccolta dati. |
Targeting della soluzione | L'operazione di tipo ConfigurationScope è stata elaborata. |
Soluzioni di valutazione | È stato eseguito un processo di valutazione. |
Inserimento
Le operazioni di inserimento sono problemi che si sono verificati durante l'inserimento dei dati e includono notifiche relative al raggiungimento dei limiti dell'area di lavoro di Log Analytics. Le condizioni di errore in questa categoria potrebbero suggerire la perdita di dati, quindi sono importanti da monitorare. Per i limiti del servizio per le aree di lavoro di Log Analytics, vedere Limiti del servizio Monitoraggio di Azure.
Importante
Se si sta risolvendo la risoluzione dei problemi relativi alla raccolta dati per uno scenario che usa una regola di raccolta dati (DCR), ad esempio l'agente di Monitoraggio di Azure o l'API di inserimento dei log, vedere Monitorare e risolvere i problemi relativi alla raccolta dei dati DCR in Monitoraggio di Azure per altre informazioni sulla risoluzione dei problemi.
Operazione: Raccolta dati arrestata
"La raccolta dei dati è stata arrestata a causa del limite giornaliero di dati gratuiti raggiunto. Stato inserimento = OverQuota"
Negli ultimi sette giorni, la raccolta dei log ha raggiunto il limite di set giornaliero. Il limite viene impostato come area di lavoro è impostato sul livello gratuito oppure il limite di raccolta giornaliero è stato configurato per questa area di lavoro. Dopo che la raccolta dati raggiunge il limite impostato, si arresta automaticamente per il giorno e riprenderà solo durante il giorno successivo della raccolta.
Azioni consigliate:
- Fare riferimento alla tabella
_LogOperation
per verificare la presenza di eventi di raccolta e ripresi della raccolta:_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
- Creare un avviso per l'evento Operazione "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite di raccolta.
- I dati raccolti dopo il raggiungimento del limite di raccolta giornaliero andranno persi. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i tassi di utilizzo di ogni origine. In alternativa, è possibile decidere di gestire il volume di dati giornaliero massimo o modificare il piano tariffario in base al modello di tariffe di raccolta.
- La frequenza di raccolta dati viene calcolata al giorno e reimpostata all'inizio del giorno successivo. È anche possibile monitorare un evento di ripresa della raccolta creando un avviso sull'evento Operazione "Raccolta dati ripresa".
Operazione: frequenza di inserimento
"La velocità del volume di inserimento dati ha superato la soglia nell'area di lavoro: {0:0.00} MB al minuto e i dati sono stati eliminati".
Azioni consigliate:
- Fare riferimento alla tabella
_LogOperation
per verificare la presenza di un evento di frequenza di inserimento:_LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
un evento viene inviato alla tabella Operazione nell'area di lavoro ogni sei ore mentre la soglia continua a essere superata. - Creare un avviso per l'evento Operazione "Raccolta dati arrestata". Questo avviso invia una notifica quando viene raggiunto il limite.
- I dati raccolti mentre la velocità di inserimento raggiunge il 100% verrà eliminata e persa. Usare il riquadro Informazioni dettagliate sull'area di lavoro per esaminare i modelli di utilizzo e provare a ridurli.
Per altre informazioni, vedere:
Operazione: numero massimo di colonne della tabella
"I dati del tipo <nome tabella> sono stati eliminati perché il numero di campi <conteggio nuovi campi> è superiore al limite dei campi personalizzati <limite di campi corrente> per tipo di dati".
Azione consigliata: per le tabelle personalizzate, è possibile passare all'analisi dei dati nelle query.
Operazione: Convalida del contenuto del campo
"Il <nome campo> dei valori dei campi seguenti del tipo <nome tabella> è stato tagliato in base alle dimensioni massime consentite, <limite dimensioni campo> byte. Modificare l'input di conseguenza."
Un campo maggiore della dimensione limite è stato elaborato dai log di Azure. Il campo è stato tagliato fino al limite di campo consentito. Non è consigliabile inviare campi superiori al limite consentito perché comporta una perdita di dati.
Azioni consigliate:
Controllare l'origine del tipo di dati interessato:
- Se i dati vengono inviati tramite l'API dell'agente di raccolta dati HTTP, è necessario modificare il codice\script per suddividere i dati prima che vengano inseriti.
- Per i log personalizzati, raccolti da un agente di Log Analytics, modificare le impostazioni di registrazione dell'applicazione o dello strumento.
- Per qualsiasi altro tipo di dati, generare un caso di supporto. Per altre informazioni, vedere Limiti del servizio Monitoraggio di Azure.
Raccolta dati
Nella sezione seguente vengono fornite informazioni sulla raccolta dati.
Operazione: raccolta Log attività di Azure
"L'accesso alla sottoscrizione è andato perso. Assicurarsi che la sottoscrizione <ID sottoscrizione> sia nel tenant Microsoft Entra <ID tenant>. Se la sottoscrizione viene trasferita a un altro tenant, non c'è alcun impatto sui servizi, ma le informazioni per il tenant potrebbero richiedere fino a un'ora per propagarsi".
In alcune situazioni, ad esempio lo spostamento di una sottoscrizione in un tenant diverso, i log attività di Azure potrebbero interrompere il flusso nell'area di lavoro. In queste situazioni, è necessario riconnettere la sottoscrizione seguendo il processo descritto in questo articolo.
Azioni consigliate:
- Se la sottoscrizione indicata nel messaggio di avviso non esiste più, passare al riquadro Connettore log attività legacy in Versione classica. Selezionare la sottoscrizione pertinente e quindi selezionare il pulsante Disconnetti.
- Se non si ha più accesso alla sottoscrizione indicata nel messaggio di avviso:
- Seguire il passaggio precedente per disconnettere la sottoscrizione.
- Per continuare a raccogliere i log da questa sottoscrizione, contattare il proprietario della sottoscrizione per correggere le autorizzazioni e riabilitare la raccolta dei log attività.
- Creare un'impostazione di diagnostica per inviare il log attività a un'area di lavoro di Log Analytics.
Agente
Nella sezione seguente vengono fornite informazioni sugli agenti.
Operazione: Agente Linux
"Due applicazioni di configurazione successive dalle impostazioni di OMS non sono riuscite".
Le impostazioni di configurazione nel portale sono state modificate.
Azione consigliata: questo problema viene generato nel caso in cui l'agente recuperi le nuove impostazioni di configurazione. Per attenuare questo problema, reinstallare l'agente.
Controllare la tabella _LogOperation
per l'evento dell'agente:
_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId
L'elenco mostra gli ID risorsa in cui l'agente ha la configurazione errata. Per attenuare il problema, reinstallare gli agenti elencati.
Regole di avviso
Usare gli avvisi di ricerca log in Monitoraggio di Azure per ricevere notifiche proattive quando viene rilevato un problema nell'area di lavoro di Log Analytics. Usare una strategia che consente di rispondere in modo tempestivo ai problemi riducendo al minimo i costi. La sottoscrizione verrà addebitata per ogni regola di avviso, come indicato nei prezzi di Monitoraggio di Azure.
Una strategia consigliata consiste nell'iniziare con due regole di avviso in base al livello del problema. Usare una frequenza breve, ad esempio ogni 5 minuti per Errori e una frequenza più lunga, ad esempio 24 ore per gli avvisi. Poiché gli errori indicano una potenziale perdita di dati, è necessario rispondere rapidamente per ridurre al minimo eventuali perdite. Gli avvisi indicano in genere un problema che non richiede attenzione immediata, quindi è possibile esaminarli ogni giorno.
Usare il processo in Creare, visualizzare e gestire gli avvisi di ricerca log usando Monitoraggio di Azure per creare le regole di avviso di ricerca log. Le sezioni seguenti descrivono i dettagli per ogni regola.
Query | Valore di soglia | Periodo | Frequenza |
---|---|---|---|
_LogOperation | where Level == "Error" |
0 | 5 | 5 |
_LogOperation | where Level == "Warning" |
0 | 1.440 | 1.440 |
Queste regole di avviso rispondono allo stesso modo a tutte le operazioni con Errore o Avviso. Man mano che si ha familiarità con le operazioni che generano avvisi, è possibile che si voglia rispondere in modo diverso per determinate operazioni. Ad esempio, è possibile inviare notifiche a persone diverse per operazioni specifiche.
Per creare una regola di avviso per un'operazione specifica, usare una query che include le colonne Categoria e Operazione.
Nell'esempio seguente viene creato un avviso di avviso quando la frequenza del volume di inserimento ha raggiunto l'80% del limite:
- Target: selezionare l'area di lavoro di Log Analytics
- Criteri:
- Nome del segnale: ricerca log personalizzata
- Query di ricerca:
_LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
- In base a: Numero di risultati
- Condizione: Maggiore di
- Soglia: 0
- Periodo: 5 (minuti)
- Frequenza: 5 (minuti)
- Nome regola di avviso: Soglia dei dati giornaliera raggiunta
- Gravità: Avviso (Gravità 1)
Nell'esempio seguente viene creato un avviso di avviso quando la raccolta dati ha raggiunto il limite giornaliero:
- Target: selezionare l'area di lavoro di Log Analytics
- Criteri:
- Nome del segnale: ricerca log personalizzata
- Query di ricerca:
_LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
- In base a: Numero di risultati
- Condizione: Maggiore di
- Soglia: 0
- Periodo: 5 (minuti)
- Frequenza: 5 (minuti)
- Nome regola di avviso: Soglia dei dati giornaliera raggiunta
- Gravità: Avviso (Gravità 1)
Passaggi successivi
- Altre informazioni sugli avvisi di ricerca log.
- Raccogliere i dati di controllo delle query per l'area di lavoro.