Introduzione all'analisi su scala cloud

L'analisi su scala cloud si basa sulle zone di destinazione di Azure per semplificare la distribuzione e la governance. Lo scopo principale di una zona di destinazione di Azure è garantire che, quando un'applicazione o un carico di lavoro si trova in Azure, l'infrastruttura necessaria è già attiva. Prima di distribuire la zona di destinazione dell'analisi su scala cloud, è necessario aver già stabilito una o più zone di destinazione di Azure. Microsoft fornisce modelli di esempio per iniziare, che è possibile usare per le distribuzioni di data lakehouse e mesh di dati . Questi modelli offrono agilità e sono conformi ai requisiti di sicurezza e governance.

Valutazione dell'analisi su scala cloud

Spesso un'azienda cerca chiarezza o indicazioni prescrittive prima di iniziare a ritagliare i dettagli tecnici per un caso d'uso specifico, un progetto o un'analisi end-to-end su scala cloud. Poiché un'azienda formula la strategia complessiva dei dati, può essere difficile garantire che consideri tutti i principi strategici e necessari nell'ambito dell'uso corrente.

Per velocizzare la distribuzione di questo percorso di analisi end-to-end, tenendo presente queste sfide, Microsoft ha sviluppato uno scenario prescrittivo per l'analisi su scala cloud. È allineato ai temi chiave descritti in Sviluppare un piano per l'analisi su scala cloud.

L'analisi su scala cloud si basa su Microsoft Cloud Adoption Framework, applicando al tempo stesso l'obiettivo di Microsoft Azure Well-Architected Framework. Microsoft Cloud Adoption Framework offre indicazioni e procedure consigliate per i modelli operativi cloud, l'architettura di riferimento e i modelli di piattaforma. Si basa su apprendimenti reali derivanti da ambienti impegnativi, sofisticati e complessi.

L'analisi su scala cloud consente ai clienti di creare e rendere operative le zone di destinazione per ospitare ed eseguire carichi di lavoro di analisi. Le basi su cui vengono create le zone di destinazione sono sicurezza, governance e conformità. Sono scalabili e modulari, supportando autonomia e innovazione.

Cronologia dell'architettura dei dati

Alla fine degli anni '80, è stata introdotta la generazione 1 del data warehouse, che combina origini dati diverse da tutta l'azienda. Alla fine degli anni '000 è arrivata gen2, con l'introduzione di ecosistemi di Big Data come Hadoop e Data Lake. La metà degli anni 2010 ha portato la piattaforma dati cloud. Era simile alle generazioni precedenti, ma con l'introduzione dell'inserimento di dati di streaming, come kappa o architetture lambda. All'inizio del 2020 sono stati introdotti i concetti di data lakehouse, mesh di dati, infrastruttura di dati e modelli operativi incentrati sui dati.

Nonostante questi progressi, molte organizzazioni usano ancora la piattaforma monolitica centralizzata, generazione 1. Questo sistema funziona bene, fino a un certo punto. Tuttavia, i colli di bottiglia possono verificarsi a causa di processi interdipendenti, componenti strettamente associati e team iperspecializzati. I processi ETL (Extract, Transform e Load) possono diventare importanti e rallentare le sequenze temporali di recapito.

Il data warehouse e il data lake sono ancora utili e svolgono un ruolo importante nell'architettura complessiva. Nella documentazione seguente sono state evidenziate alcune delle problematiche che possono verificarsi quando si usano queste procedure tradizionali per la scalabilità. Queste sfide sono particolarmente rilevanti in un'organizzazione complessa, in cui origini dati, requisiti, team e output cambiano.

Passaggio all'analisi su scala cloud

L'architettura dei dati analitici e il modello operativo correnti possono includere strutture data warehouse, data lake e data lakehouse o anche un modello emergente come data fabric o mesh di dati.

Ogni modello di dati ha i propri meriti e sfide. L'analisi su scala cloud consente di lavorare dalla configurazione corrente per spostare l'approccio alla gestione dei dati in modo che possa evolversi con l'infrastruttura.

È possibile supportare qualsiasi piattaforma dati e scenario per creare un framework di analisi su scala cloud end-to-end che funge da base e consente il ridimensionamento.

Piattaforma dati moderna e risultati desiderati

Una delle prime aree di interesse consiste nell'attivare la strategia dei dati per affrontare le sfide creando in modo iterativo una piattaforma dati moderna scalabile e agile.

Invece di essere sovraccaricati con i ticket di servizio e cercando di soddisfare esigenze aziendali concorrenti, una piattaforma dati moderna consente di svolgere un ruolo più consultivo liberando il tempo necessario per concentrarsi sul lavoro più prezioso. Si forniscono linee di business con la piattaforma e i sistemi per soddisfare le esigenze di analisi e dati self-service.

Le aree consigliate dello stato attivo iniziale sono:

  • Migliorare la qualità dei dati, facilitare la fiducia e ottenere informazioni dettagliate per prendere decisioni aziendali basate sui dati.

  • Implementare facilmente dati olistici, gestione e analisi su larga scala nell'organizzazione.

  • Definire una solida governance dei dati che consenta la gestione self-service e la flessibilità per le linee di business.

  • Mantenere la sicurezza e la conformità legale in un ambiente completamente integrato.

  • Creare rapidamente le basi per le funzionalità di analisi avanzate, con una soluzione predefinita di modelli modulari ben strutturati, ripetibili e modulari.

Gestire il patrimonio di analisi

Una seconda considerazione consiste nel determinare come l'organizzazione implementa la governance dei dati.

La governance dei dati è il modo in cui si garantisce che i dati usati nelle operazioni aziendali, nei report e nell'analisi siano individuabili, accurati, attendibili e protetti.

Per molte aziende, l'aspettativa è che i dati e l'IA creeranno un vantaggio competitivo. Di conseguenza, i dirigenti sono desiderosi di sponsorizzare le iniziative relative all'intelligenza artificiale come parte del processo di trasformazione guidata dai dati. Tuttavia, affinché l'intelligenza artificiale diventi efficace, i dati usati devono essere considerati attendibili. In caso contrario, l'accuratezza delle decisioni può essere compromessa, le decisioni potrebbero essere ritardate o le azioni potrebbero non riuscire, che possono influire sulla linea inferiore. Le aziende non vogliono che la qualità dei dati sia spazzatura, spazzatura. Inizialmente, potrebbe sembrare semplice correggere la qualità dei dati, fino a quando non si esamina l'effetto che la trasformazione digitale ha avuto sui dati.

Con la distribuzione dei dati in un multicloud ibrido e in un panorama dei dati distribuiti, le organizzazioni faticano a trovare dove si trovano e a gestire i dati. I dati non gestiti possono avere un effetto rilevante sull'azienda. La scarsa qualità dei dati influisce sulle operazioni aziendali, perché gli errori dei dati causano errori e ritardi del processo. La scarsa qualità dei dati influisce anche sul processo decisionale e sulla possibilità di rimanere conforme dell'azienda. Garantire la qualità dei dati all'origine è spesso preferibile, perché la correzione dei problemi di qualità nel sistema analitico può essere più complessa e costosa rispetto all'applicazione delle regole di qualità dei dati nelle prime fasi di inserimento. Per tenere traccia e gestire l'attività dei dati, la governance dei dati deve includere:

  • Individuazione dei dati
  • Qualità dei dati
  • Creazione di criteri
  • Condivisione dei dati
  • Metadati

Proteggere il patrimonio di analisi

Un altro fattore importante per la governance dei dati è la protezione dei dati. La protezione dei dati consente di essere conforme alla legislazione normativa e può impedire violazioni dei dati. La privacy dei dati e il crescente numero di violazioni dei dati hanno reso la protezione dei dati una priorità assoluta per le aziende. Queste violazioni evidenziano il rischio per i dati sensibili, ad esempio i dati personali dei clienti. Le conseguenze di una violazione della privacy dei dati o di una violazione della sicurezza dei dati sono molte e possono includere:

  • Perdita o danni gravi all'immagine del marchio

  • Perdita di fiducia da parte dei clienti e della quota di mercato

  • Calo del prezzo delle azioni, che influisce sul ritorno sugli investimenti degli stakeholder e sulle retribuzioni dei dirigenti

  • Sanzioni finanziarie gravi a causa di errori di controllo o di conformità

  • Azione legale

  • L'effetto domino della violazione, ad esempio, i clienti potrebbero cadere vittima del furto di identità

Nella maggior parte dei casi, le società quotate pubblicamente devono dichiarare queste violazioni. Se si verificano violazioni, è più probabile che i clienti incolpino l'azienda, anziché l'hacker. Il cliente potrebbe boicottare l'azienda per diversi mesi o non tornare mai.

Il mancato rispetto della legislazione normativa sulla privacy dei dati può comportare sanzioni finanziarie significative. La governance dei dati consente di evitare tali rischi.

Modello operativo e vantaggi

L'adozione di una piattaforma moderna per la strategia dei dati non solo modifica la tecnologia usata dall'organizzazione, ma anche il modo in cui opera.

L'analisi su scala cloud fornisce indicazioni prescritti che consentono di valutare come organizzare e assegnare competenze a persone e team, tra cui:

  • Definizioni di persona, ruolo e responsabilità
  • Strutture suggerite per team agile, verticale e cross-domain
  • Risorse di competenza, inclusi i dati di Azure e le certificazioni di intelligenza artificiale tramite Microsoft Learn

È anche importante coinvolgere gli utenti finali durante il processo di modernizzazione e continuare a evolvere la piattaforma ed eseguire l'onboarding di nuovi casi d'uso.

Architetture

Le zone di destinazione di Azure rappresentano il percorso di progettazione strategico e lo stato tecnico di destinazione per l'ambiente. Consentono una maggiore flessibilità e conformità per la distribuzione e la governance. Le zone di destinazione di Azure assicurano anche che, quando una nuova applicazione o un nuovo carico di lavoro si trova nell'ambiente, l'infrastruttura appropriata è già disponibile. La gestione dei dati e le zone di destinazione dei dati di Azure sono progettate con questi stessi principi fondamentali e, se combinati con gli altri elementi dell'analisi su scala cloud, possono essere utili per abilitare:

  • Self-service
  • Scalabilità
  • Avvio veloce
  • Sicurezza
  • Privacy
  • Operazioni ottimizzate

Zona di destinazione per la gestione dei dati

La zona di destinazione per la gestione dei dati fornisce le basi per la governance e la gestione centralizzata dei dati della piattaforma nell'organizzazione. Facilita anche la comunicazione per inserire i dati dall'intero patrimonio digitale, tra cui l'infrastruttura multicloud e ibrida.

La zona di destinazione per la gestione dei dati supporta numerose altre funzionalità di gestione e governance dei dati, ad esempio:

  • Catalogo dati
  • Classificazione dati
  • Derivazione dei dati
  • Gestione della qualità dei dati
  • Repository di modellazione dei dati
  • Catalogo API
  • Condivisione dei dati e contratti

Zone di destinazione dei dati

Le zone di destinazione dei dati avvicinano i dati agli utenti e consentono la gestione self-service, mantenendo al tempo stesso la gestione e la governance comuni tramite la connessione alla zona di destinazione della gestione dei dati.

Ospitano servizi standard come rete, monitoraggio, inserimento ed elaborazione dei dati, nonché personalizzazioni come prodotti dati e visualizzazioni.

Le zone di destinazione dei dati sono fondamentali per abilitare la scalabilità della piattaforma. A seconda delle dimensioni e delle esigenze dell'organizzazione, è possibile iniziare con una o più zone di destinazione.

Quando si decide tra zone di destinazione singole e multiple, prendere in considerazione le dipendenze a livello di area e i requisiti di residenza dei dati. Ad esempio, esistono leggi locali o normative che richiedono che i dati rimangano in una posizione specifica?

Indipendentemente dalla decisione iniziale, è possibile aggiungere o rimuovere le zone di destinazione dei dati in base alle esigenze. Se si inizia con una singola zona di destinazione, è consigliabile estendere a più zone di destinazione per evitare future esigenze di migrazione.

Per altre informazioni sulle zone di destinazione, vedere Zone di destinazione di Azure per l'analisi su scala cloud.

Conclusione

Dopo aver letto questo set di documentazione, in particolare le sezioni governance, sicurezza, funzionamento e procedure consigliate, è consigliabile configurare un ambiente di verifica usando i modelli di distribuzione. Questi modelli, insieme alle linee guida sull'architettura, offrono un'esperienza pratica con alcune delle tecnologie di Azure. Per altre informazioni, vedere l'elenco di controllo Introduttivo.

Passaggi successivi

Integrare l'analisi su scala cloud nella strategia di adozione del cloud