Raccomandazioni per rispondere ai problemi di performance dal vivo
Si applica a questa raccomandazione della checklist di efficienza delle prestazioni ben architettata: Power Platform
EPO:09 | Rispondere ai problemi relativi alle esibizioni dal vivo. Pianificare come affrontare i problemi di performance incorporando chiare linee di comunicazione e responsabilità. Quando si verifica una situazione problematica, utilizza ciò che hai imparato per identificare misure preventive e incorporarle nel tuo carico di lavoro. Implementare metodi per tornare più rapidamente alle normali operazioni quando si verificano situazioni simili. |
---|
Questo guida descrive le best practice per rispondere ai problemi relativi alle performance dal vivo. I problemi di prestazioni live si riferiscono a sfide e colli di bottiglia in tempo reale che possono ostacolare il funzionamento ottimale di un carico di lavoro. Affrontare tempestivamente questi problemi non solo facilita l'individuazione e la correzione immediate di problemi di prestazioni, ma garantisce anche che il carico di lavoro soddisfi costantemente i propri parametri di riferimento prestazionali. Non affrontarli può portare a complicazioni, tra cui rallentamenti, arresti anomali e mancata risposta del sistema, e compromettere l'esperienza dell'utente. Possono anche impedire agli utenti di completare i loro compiti in modo efficiente e, di conseguenza, danneggiare la reputazione dell'organizzazione.
Definizioni
Termine | Definizione |
---|---|
Correlazione dei dati | Allineamento di registri, metriche ed eventi da varie parti del carico di lavoro per individuare le cause sottostanti. |
Analisi della causa radice | Un processo per identificare i fattori sottostanti responsabili di un problema. |
Autoguarigione | La capacità di riparare automaticamente i problemi senza l'intervento umano. |
Autoprevenzione | Implementazioni all'interno di un carico di lavoro per prevenire potenziali problemi e guasti. |
Strategie di progettazione chiave
Quando si verifica un problema di prestazioni live, è necessario essere preparati con i dati giusti e un piano per rispondere al problema. Questo piano dovrebbe includere chiare linee di comunicazione e responsabilità. L'obiettivo principale è identificare se i problemi di prestazioni sono temporanei o isolati, identificare la causa principale del problema di prestazioni e implementare soluzioni che facilitino un rapido ritorno alle normali operazioni e forniscano informazioni sull'incidente. Integrare misure preventive nel flusso di lavoro è una strategia fondamentale. L'obiettivo è impedire che lo stesso problema si ripeta o ridurne gli effetti sulle prestazioni se non è possibile evitarlo.
Prepararsi ai problemi
Il risposta ideale per risolvere i problemi di prestazioni del sito live è preciso e veloce. La precisione e la velocità nel ripristino delle prestazioni richiedono preparazione. Per rispondere in modo efficace ai problemi di prestazioni in tempo reale, è fondamentale monitorare i parametri chiave delle prestazioni, identificare la causa principale dei problemi e implementare soluzioni o ottimizzazioni appropriate. Per intraprendere questi passaggi, potrebbe essere necessario analizzare i registri del carico di lavoro, eseguire test delle prestazioni e ottimizzare il codice o le configurazioni.
Gli esempi seguenti delineano alcune aree critiche della preparazione:
Avere diagrammi architettonici precisi. I diagrammi dell'architettura dovrebbero includere tutti i componenti e mostrare come interagiscono. La rappresentazione visiva può aiutare a identificare colli di bottiglia e singoli punti di errore che possono portare a un calo delle prestazioni o alla mancata disponibilità. L'ideale sarebbe individuare e rimuovere questi problemi prima che diventino causa di problemi, ma avere uno schema aggiornato può aiutare a individuare i problemi nei momenti di forte stress.
Controllare l'accesso ai dati. I dati e i registri dei processi di monitoraggio sono fondamentali per rispondere in tempo reale ai problemi di prestazioni e condurre analisi delle cause profonde. Ma è importante preservare l'integrità e la riservatezza dei dati. Per rispondere ai problemi di prestazioni dei siti live spesso è necessario accedere a dati sottostanti che normalmente potrebbero non essere accessibili. È necessario garantire che il personale abbia accesso ai dati di cui ha bisogno quando si presentano problemi. Tuttavia, dovresti concedere solo un accesso limitato nel tempo, con privilegi minimi e dovresti limitare tale accesso al personale autorizzato.
Imposta avvisi automatici. Gli avvisi possono aiutarti a identificare e risolvere i problemi non appena si verificano. Gli avvisi dovrebbero generare notifiche quando le prestazioni del carico di lavoro si discostano dai valori di riferimento delle prestazioni. Nel tempo, dovresti modificare le configurazioni degli avvisi per evitare di generare troppe o troppo poche notifiche. Le soluzioni di monitoraggio utilizzate devono raccogliere dati sufficienti per generare avvisi. Questi avvisi dovrebbero allineare con obiettivi prestazionali e linee di base stabilite. Dovresti evitare di generare avvisi su questioni che non sono pertinenti ai tuoi obiettivi. Esempi di avvisi includono cali nei tempi di risposta, prestazioni di chiamate API o plug-in e caricamenti di pagine. Dataverse
Creare un piano di triage
La creazione di un piano di triage implica l'elaborazione di un approccio strutturato per identificare, segnalare, analizzare, stabilire le priorità e comunicare i problemi relativi alle prestazioni del sito attivo. Un piano di triage è una strategia per rispondere ai problemi relativi alle esibizioni dal vivo. Garantisce che le interruzioni delle prestazioni vengano affrontate in modo tempestivo ed efficace, con ruoli e procedure chiari. La maggior parte dei problemi di prestazioni non merita protocolli di disaster recovery, ma possono influire sulla funzionalità del carico di lavoro al punto da richiedere una pianificazione di triage. Un piano di triage ben documentato garantisce che tutti i membri del team siano allineati e possano agire rapidamente, riducendo al minimo l'impatto sugli utenti e sui carichi di lavoro. Un piano di triage dovrebbe includere i seguenti componenti:
Identificazione e monitoraggio: implementare un sistema per identificare e monitorare i problemi di prestazioni in tempo reale. Dovresti avere un elenco delle informazioni di contatto delle persone in grado di prendere decisioni o di portare i problemi a livelli superiori. Il piano dovrebbe anche identificare ruoli e responsabilità. È necessario documentare quali account hanno accesso alle informazioni protette e per quanto tempo.
Processo di escalation: definire un chiaro processo di escalation per garantire che i problemi di prestazioni vengano segnalati tempestivamente ai team o alle persone appropriate. La definizione del processo dovrebbe includere informazioni di contatto e linee guida per l'escalation dei problemi.
Analisi della causa principale: sviluppare un processo per condurre un'analisi della causa principale per identificare la causa sottostante di ciascun problema di prestazioni. Il processo dovrebbe comportare l'analisi dei registri e delle metriche delle prestazioni, nonché l'esecuzione di test diagnostici per individuare l'origine di ciascun problema.
Definizione delle priorità: stabilire un quadro di definizione delle priorità per determinare la gravità dei problemi di prestazioni e stabilirne la priorità in base al loro effetto sul carico di lavoro e sugli utenti.
Comunicazione: creare un piano di comunicazione per tenere informati gli stakeholder sullo stato dei problemi di performance e sui progressi della loro risoluzione. Si consiglia di fornire aggiornamenti regolari, report sullo stato di avanzamento e canali di comunicazione chiari.
Documentazione: documentare il piano di triage, inclusi tutti i suoi passaggi, processi e best practice. Questa documentazione dovrebbe essere facilmente accessibile ai membri del team coinvolti nella risposta ai problemi di prestazioni.
Sviluppare metodi per identificare e risolvere i problemi
Per risolvere i problemi di prestazioni in tempo reale è necessario identificare e affrontare tutti i fattori che possono causare un degrado delle prestazioni o inefficienze in un carico di lavoro in tempo reale. I dati raccolti durante il monitoraggio sono preziosissimi per indagare e risolvere gli incidenti correlati alle prestazioni. Questi dati forniscono una registrazione storica delle metriche delle prestazioni. Quando si hanno a disposizione dati di monitoraggio, è possibile analizzare le cause profonde e identificare i fattori che contribuiscono. Dovresti utilizzare tutti i dati di monitoraggio rilevanti per comprendere e risolvere ogni problema di prestazioni. Monitora quanti picchi transitori stai rilevando e imposta di conseguenza le soglie Regola.
Utilizzare l'analisi della causa principale
L'analisi delle cause profonde richiede la verifica delle ipotesi. Dopo aver esaminato i dati di monitoraggio, dovresti elencare le potenziali cause del problema di prestazioni e testarle.
Per condurre un'analisi della causa principale di un problema di prestazioni in tempo reale, seguire segui questi passaggi:
Raccogliere informazioni. Raccogliere quante più informazioni possibili sul problema di prestazioni. Esempi di dati rilevanti sono messaggi di errore, registri, parametri delle prestazioni e qualsiasi altro dato rilevante. Includi anche informazioni sugli utenti che hanno segnalato il problema, come il dispositivo, la rete e la posizione.
Definisci il problema. Definire chiaramente il problema identificando i sintomi e l'effetto che il problema ha sul carico di lavoro o sugli utenti.
Indagare sulle possibili cause. Restringere l'ambito dell'analisi identificando il componente o l'area specifica del carico di lavoro in cui si verifica il problema di prestazioni. Individuare le possibili cause del problema di prestazioni in base alle informazioni raccolte. Questo processo può comportare l'analisi del codice, delle impostazioni di configurazione, dell'infrastruttura o delle dipendenze esterne.
Correlare i dati. Analizzare più a fondo i dati raccolti per identificare modelli, anomalie o correlazioni che potrebbero contribuire al problema di prestazioni. La correlazione dei dati è fondamentale per identificare i problemi di prestazioni e le relative cause. Può comportare la revisione dei registri, l'analisi delle metriche delle prestazioni e l'esecuzione di test.
Verificare le ipotesi. Formulare ipotesi basate sulle potenziali cause identificate. Esegui dei test per convalidare o confutare le tue ipotesi. Dovresti usare un test ambiente per vedere se riesci a replicare l'errore.
Implementare soluzioni. Una volta identificata la causa principale, sviluppa e implementa soluzioni per risolvere il problema di prestazioni.
Monitorare e convalidare. Dopo aver implementato le soluzioni, monitorare costantemente il carico di lavoro per assicurarsi che il problema di prestazioni sia stato risolto. Convalidare l'efficacia delle soluzioni monitorando le metriche delle prestazioni e il feedback degli utenti.
Compromesso: le fasi di un'analisi delle cause profonde, come l'identificazione delle possibili cause, la verifica delle ipotesi e la documentazione dell'analisi, possono richiedere molto tempo. Per correlare i problemi di prestazioni, è anche necessario raccogliere e archiviare i dati. Il tempo e l'infrastruttura richiesti possono comportare un notevole aumento del lavoro dei team operativi e dei costi del carico di lavoro.
Rischio: se si esegue un'analisi delle cause profonde senza le opportune misure di sicurezza, si corre il rischio di esporre informazioni sensibili quando si fornisce l'accesso a registri e dati.
Coinvolgi Microsoft Supporto
contattare Microsoft l'Assistenza per risolvere i problemi di prestazioni in corso. Microsoft Gli addetti all'assistenza non solo hanno la competenza, gli strumenti, le risorse e l'esperienza per risolvere i problemi, ma possono anche essere a conoscenza di eventuali problemi di prestazioni globali o interruzioni che potrebbero influire sul tuo carico di lavoro. Il contratto di supporto determina il livello di supporto fornito.
Spesso è meglio lavorare in parallelo con il Microsoft Supporto. Ad esempio, si consideri una strategia in cui alcuni membri del team collaborano con il supporto, mentre altri continuano a selezionare e risolvere i problemi di prestazioni. Microsoft
È importante rendere disponibili al team le informazioni di contatto dell'assistenza. Tieni presente che Microsoft anche il supporto potrebbe aver bisogno di accedere ai dati per impegnarsi efficacemente nella risoluzione dei problemi.
Per ulteriori informazioni, vedere Ottieni aiuto e supporto in Power Platform.
Imparare dai risultati
Dopo aver risolto un problema di prestazioni del sito live, è necessario rivedere cosa è successo. L'obiettivo è imparare dai problemi di prestazione, non solo identificarli. Il modo migliore per imparare è attraverso la documentazione. Documenta ogni problema e spiega come risolverlo. Se un fornitore ti è stato d'aiuto, collabora con lui per migliorare la documentazione, formare il tuo team e modificare di conseguenza il carico di lavoro.
La documentazione dovrebbe indicare come impedire che ciascun problema si ripeta. Insieme alla documentazione, puoi creare avvisi avanzati che ti aiutano a rispondere tempestivamente agli indicatori di problemi di prestazioni.
Facilitazione di Power Platform
Power Platform e Azure forniscono diversi strumenti per aiutarti a rispondere ai problemi di prestazioni in tempo reale:
Azure Monitor è una soluzione di monitoraggio completa che fornisce informazioni approfondite sulle prestazioni e sullo stato di integrità delle applicazioni e dell'infrastruttura. Azure Monitor offre funzionalità quali metriche, registri, avvisi e dashboard per aiutarti a monitorare e diagnosticare i problemi di prestazioni. Power Platform Le app e l'automazione possono essere integrate con Azure Monitor tramite la funzionalità Application Insights . La telemetria standard insieme agli eventi di tracciamento personalizzati possono essere registrati e analizzati.
Application Insights è un servizio di gestione delle prestazioni delle applicazioni (APM) che aiuta gli sviluppatori e i professionisti DevOps a monitorare le applicazioni live. Rileva automaticamente anomalie nelle prestazioni, raccoglie registri ed eventi a livello di applicazione e fornisce strumenti di analisi per diagnosticare i problemi. Power Platform si integra con Application Insights.
Log Analytics è un servizio che raccoglie e analizza i dati di registro da varie fonti, tra cui applicazioni, macchine virtuali e risorse di Azure. Utilizzando Log Analytics, puoi interrogare e analizzare i dati di registro per ottenere informazioni dettagliate sulle prestazioni e sul comportamento delle tue applicazioni. Se il tuo carico di lavoro utilizza risorse di Azure, prendi in considerazione l'utilizzo di Log Analytics.
Solution Checker esegue un'analisi statica approfondita delle tue soluzioni in base a una serie di regole di best practice e identifica modelli problematici. Risolvere eventuali problemi relativi alle prestazioni prima di distribuire la soluzione in produzione per evitare problemi di prestazioni sul sito live.
Elenco di controllo dell'efficienza prestazionale
Fai riferimento alla serie completa di elementi consigliati.