Definire i processi di gestione delle operazioni
Quando l'azienda inizia a gestire i carichi di lavoro in Azure, il passaggio successivo consiste nel definire un processo per la gestione e l'idoneità operativa. Questo processo enumera, implementa e verifica e ottimizza in modo iterativo lo stato operativo per questi carichi di lavoro.
Un processo di verifica dell'idoneità operativa garantisce che l'intero portfolio di carichi di lavoro soddisfi gli impegni aziendali in termini di prestazioni, affidabilità e costi. Questo processo allinea gli sforzi dei team IT centrale, del centro di eccellenza del cloud e dei carichi di lavoro per offrire eccellenza operativa su larga scala.
Definire un processo di base per la verifica dell'idoneità operativa
Creare un processo per la verifica dell'idoneità operativa per comprendere appieno i problemi risultanti dall'esecuzione di carichi di lavoro in un ambiente di produzione e come correggere e risolvere tali problemi. Questo articolo illustra un processo generale di verifica dell'idoneità operativa, che può essere adottato dall'organizzazione per raggiungere questo obiettivo.
Idoneità operativa a Microsoft
Fin dall'inizio, molti team di Microsoft sono stati coinvolti nello sviluppo della piattaforma Azure. È difficile garantire qualità e coerenza per un progetto di tali dimensioni e complessità. È necessario un processo affidabile per enumerare e implementare regolarmente i requisiti fondamentali non funzionali.
I processi seguiti da Microsoft costituiscono la base per i processi descritti in questo articolo.
Conoscere i ruoli e i modelli operativi
La gestione delle operazioni è una disciplina ampia, che coinvolge più ruoli all'interno dell'azienda. A seconda del modello operativo delle organizzazioni, questi ruoli possono operare in un ambiente a matrice con una serie di handoff tra team operativi centralizzati e decentralizzati.
- IT centrale/Centro di eccellenza del cloud: questa funzione tecnologica centralizzata è responsabile della configurazione, dell'operatività, della governance e della sicurezza di tutti gli asset tecnologici nel portfolio tecnologico.
- Operazioni del cloud: una funzione all'interno dell'organizzazione della tecnologia centralizzata, questa funzione operativa gestisce l'integrità e le operazioni del portfolio tecnologico. È loro responsabilità garantire che il processo venga eseguito senza problemi, che ogni ruolo adiacente nel processo abbia gli strumenti necessari e che ognuno dei ruoli successivi sia responsabile delle aspettative per questo processo.
- Strategia del cloud: fornisce informazioni sull'azienda per identificare e classificare in ordine di priorità gli impegni per mantenere i requisiti operativi dei vari carichi di lavoro. Questo ruolo, inoltre, è in grado di soppesare il costo delle correzioni in relazione all'impatto aziendale e guida la decisione finale in merito agli interventi correttivi.
- Team dei carichi di lavoro: è responsabile dello sviluppo e dell'operatività di carichi di lavoro discreti corrispondenti ad applicazioni, servizi e infrastruttura di supporto specifici, in locale o nel cloud. Per questo ruolo è richiesta una conoscenza approfondita dell'architettura dei carichi di lavoro.
Il modello operativo di ogni organizzazione determina la responsabilità e le attività quotidiane dei ruoli precedenti:
- Operazioni centralizzate: il team IT centrale mantiene la piena responsabilità per le operazioni. I proprietari dei carichi di lavoro possono fornire input per le operazioni e la configurazione, ma non hanno accesso per modificare gli ambienti di produzione. Solo i team IT centrale e delle operazioni del cloud possono introdurre modifiche operative per migliorare l'idoneità operativa.
- Operazioni decentralizzate: I team responsabili dei carichi di lavoro sono totalmente responsabili delle operazioni, in genere tramite una pipeline CI/CD matura e l'automazione dei processi DevOps. In questo modello non è disponibile alcun supporto centrale per la configurazione, le operazioni, la governance o la sicurezza. Questo approccio alle operazioni non rientra nell'ambito applicativo di Cloud Adoption Framework. Per indicazioni operative su questo modello operativo, vedere Azure Well-Architected Framework.
- Operazioni aziendali: il centro di eccellenza del cloud è responsabile delle operazioni. I team delle operazioni del cloud e dei carichi di lavoro condividono responsabilità per aspetti specifici dell'idoneità operativa.
Obiettivo della valutazione
L'idoneità operativa viene valutata per tutto il portfolio usando alcune metriche: affidabilità, prestazioni e costi. Nel loro insieme, queste proprietà consentono una valutazione rapida dell'integrità e dell'idoneità di tutti gli asset nel portfolio. Queste metriche vengono valutate sui tre livelli della gestione delle operazioni.
- Baseline delle operazioni (o baseline avanzata): valuta l'idoneità operativa per tutti gli asset distribuiti indipendentemente dalla relativa funzione. Questa visione generale delle operazioni è utile per modifiche generali e con grande impatto, ma è limitata dalla mancanza di visibilità sull'architettura dei singoli carichi di lavoro. Tutte le risorse distribuite nel cloud devono essere coperte da una baseline delle operazioni con il supporto regolare delle operazioni del cloud. Alcuni ambienti possono richiedere un livello superiore di supporto operativo per soddisfare le esigenze della baseline avanzata.
- Operazioni della piattaforma: valuta l'idoneità operativa delle piattaforme tecnologiche centralizzate. Questa visione delle operazioni è più dettagliata perché tiene conto dell'architettura della piattaforma e dell'effetto delle modifiche alla soluzione sull'idoneità operativa. Le modifiche alle piattaforme tecnologiche centrali possono avere un ampio impatto downstream sui carichi di lavoro supportati. Tutte le piattaforme cruciali devono ricevere supporto dedicato da un team IT centrale.
- Operazioni del carico di lavoro: valuta l'idoneità operativa di un singolo carico di lavoro. Questa visione delle operazioni è la più dettagliata e deve essere presa in considerazione quando i miglioramenti dell'idoneità operativa richiedono modifiche all'architettura di un carico di lavoro. Le operazioni del carico di lavoro devono rispettare i principi di Azure Well-Architected Framework. Tutti i carichi di lavoro cruciali con un ciclo DevOps attivo devono ricevere supporto dedicato da un team del carico di lavoro.
L'obiettivo della verifica dell'idoneità operativa è valutare regolarmente l'idoneità operativa a tutti i livelli. I miglioramenti identificati possono quindi essere applicati al livello appropriato per informare le modifiche necessarie per gestire il portfolio complessivo.
Processo di verifica dell'idoneità operativa
L'elemento chiave per mantenere le prestazioni e la continuità del portfolio di un'azienda è l'implementazione di un processo di verifica dell'idoneità operativa.
A livello generale, il processo prevede due fasi. Nella fase dei prerequisiti, i requisiti vengono stabiliti e abbinati ai servizi di supporto. Questa fase è meno frequente e probabilmente si verifica ogni anno o in caso di introduzione di nuovi processi operativi. L'output della fase dei prerequisiti viene usato nella fase del flusso. La fase di flusso si verifica più frequentemente, ad esempio ogni mese.
Fase dei prerequisiti
I passaggi di questa fase acquisiscono i requisiti per eseguire una verifica regolare del portfolio e di tutti i carichi di lavoro cruciali.
Identificare le operazioni aziendali cruciali. Identificare le operazioni aziendali cruciali in base agli impegni aziendali concordati. Le operazioni aziendali sono indipendenti da qualsiasi funzionalità dei servizi di supporto. In altre parole, le operazioni aziendali rappresentano le attività effettive che l'azienda deve eseguire e che sono supportate da un set di servizi IT.
Il termine cruciale, o business critical, è indicativo delle gravi conseguenze per l'azienda se l'operazione risultasse impedita. Ad esempio, un rivenditore online potrebbe avere l'operazione aziendale "consentire a un cliente di aggiungere un articolo a un carrello acquisti" o "elaborare un pagamento con carta di credito". Se una di queste operazioni ha esito negativo, un cliente non può completare la transazione e l'azienda non riesce a realizzare la vendita.
Abbinare le operazioni ai servizi. Abbinare le operazioni aziendali cruciali ai servizi IT (operazioni della baseline, piattaforma o carico di lavoro) che le supportano. Occorre identificare anche qualsiasi piattaforma tecnologica o carico di lavoro necessario per supportare una funzione aziendale cruciale, per abbinare operazioni e servizi ai team responsabili.
Analizzare le dipendenze dei servizi. La maggior parte delle operazioni aziendali richiede l'orchestrazione tra più carichi di lavoro e piattaforme tecnologiche di supporto. È importante conoscere le dipendenze tra ogni set di asset di supporto e il flusso delle transazioni cruciali attraverso questi servizi.
Tenere conto anche delle dipendenze tra i servizi locali e i servizi di Azure. Nell'esempio del carrello acquisti, il servizio di gestione delle scorte di inventario potrebbe essere ospitato in locale e usare i dati immessi dai dipendenti da un magazzino fisico. Tuttavia, potrebbe archiviare i dati nel cloud in un servizio di Azure, ad esempio Archiviazione di Azure, o in un database, ad esempio Azure Cosmos DB.
Un output da queste attività è un set di metriche di scorecard per la gestione delle operazioni. La scorecard misura criteri quali affidabilità, prestazioni e costi. Le metriche della scorecard esprimono i criteri operativi previsti dal servizio.
La scorecard deve essere espressa in termini semplici per promuovere scambi di informazioni significativi tra i titolari dell'azienda, i team operativi del cloud e il personale tecnico. Ad esempio, una metrica di scorecard per l'affidabilità può essere codificata a colori in base al raggiungimento del contratto di servizio concordato. Verde significa soddisfare il contratto di servizio definito, giallo significa non soddisfare i criteri definiti ma implementare attivamente una correzione pianificata e rosso significa non soddisfare i criteri definiti senza un piano o un'azione.
È importante sottolineare che queste metriche devono riflettere direttamente gli impegni aziendali.
Fase di verifica del servizio
La fase di verifica del servizio è fondamentale per la verifica dell'idoneità operativa. Questi sono i passaggi inclusi:
Misurare le metriche del servizio. Usare le metriche della scorecard per monitorare le prestazioni a ogni livello di gestione delle operazioni, per garantire che i servizi soddisfino gli impegni aziendali. I servizi di inventario e visibilità all'interno della baseline delle operazioni sono essenziali. Se non è possibile monitorare un set di risorse rispetto agli impegni aziendali, considerare le metriche della scorecard corrispondenti in rosso. In questo caso, il primo passaggio per la correzione consiste nell'implementare il monitoraggio del servizio appropriato. Ad esempio, se l'azienda si aspetta una disponibilità operativa del 99,99% per un servizio, ma non esistono strumenti di telemetria della produzione per misurare la disponibilità, si deve presupporre che questo requisito non sia soddisfatto.
Pianificare gli interventi correttivi. Per ogni impegno aziendale per cui le metriche sono inferiori a una soglia accettabile, determinare il team operativo appropriato a cui affidare i necessari interventi correttivi. Tale team ha la responsabilità di calcolare il costo della correzione del servizio per portare le operazioni a un livello accettabile. Se il costo della correzione del problema è superiore al budget allocato per il servizio, il team IT centrale/centro di eccellenza del cloud deve esaminare la situazione insieme al team di strategia del cloud per valutare eventuali investimenti aggiuntivi.
Implementare gli interventi correttivi. Quando il team delle operazioni del cloud o dei carichi di lavoro ottiene l'accettazione del piano correttivo, è il momento di implementarlo. Segnalare lo stato dell'implementazione ogni volta che si esaminano le metriche della scorecard.
Questo processo è iterativo. Il team IT centrale/centro di eccellenza del cloud è responsabile della gestione del processo e della generazione di report sullo stato per il team di strategia del cloud. Questo team dovrebbe riunirsi regolarmente per esaminare i progetti correttivi esistenti, avviare la verifica degli elementi fondamentali per i nuovi carichi di lavoro e monitorare le scorecard complessive dell'azienda. Il team deve anche avere l'autorità per richiedere ai team di correzione (operazioni del cloud o operazioni dei carichi di lavoro) di rispondere in caso di ritardi rispetto alla pianificazione o nel caso non soddisfino le metriche.
Riunione di verifica
È consigliabile organizzare regolarmente riunioni di verifica dell'idoneità operativa. Il team IT centrale/centro di eccellenza del cloud è tenuto a partecipare alla verifica. I team che si occupano della strategia del cloud e delle operazioni dei carichi di lavoro sono invitati a partecipare, ma sono operativi. A titolo di esempio per la cadenza, il team di base potrebbe riunirsi ogni mese per allinearsi sui piani e in modo che i vari team delle operazioni siano tenuti a rispondere. Ogni trimestre, possono partecipare anche i team di strategia del cloud e tutti i team dei carichi di lavoro per capire lo stato e le metriche.
Adattare i dettagli del processo e delle riunioni in base alle specifiche esigenze. Come punto di partenza, è consigliabile tenere presente quanto segue:
- Operazioni centralizzate: è improbabile che i team dei carichi di lavoro partecipino attivamente al processo, ma devono essere inclusi nei report per avere visibilità.
- Operazioni decentralizzate: il team delle operazioni del cloud deve condividere le procedure consigliate usate per migliorare le operazioni delle piattaforme tecnologiche con i team dei carichi di lavoro. I team dei carichi di lavoro devono condividere le modifiche ai rispettivi carichi di lavoro per identificare i miglioramenti che possono essere applicati alle piattaforme tecnologiche e alla baseline delle operazioni.
Risorse consigliate
- Gestione automatica di Azure. Gestione automatica di Azure esegue automaticamente il monitoraggio dell'idoneità operativa per l'intera baseline delle operazioni e automatizza l'applicazione di varie strategie di correzione all'intero portfolio.
- Azure Advisor. Azure Advisor offre raccomandazioni personalizzate in base all'utilizzo e alle configurazioni per ottimizzare le risorse. Per impostazione predefinita, questo strumento fornisce raccomandazioni per un'intera sottoscrizione per migliorare la baseline delle operazioni. Può anche essere usato in modo più granulare per identificare i miglioramenti alle piattaforme tecnologiche o a singoli carichi di lavoro.
- Microsoft Azure Well-Architected Framework: linee guida per migliorare le operazioni dei carichi di lavoro o per guidare le operazioni decentralizzate.