Processo di inserimento con l'analisi su scala cloud in Azure

Azure offre diversi servizi per inserire e rilasciare dati in piattaforme native e di terze parti. È possibile usare servizi diversi, a seconda del volume, della velocità, della varietà e della direzione. Alcuni di questi servizi includono:

  • Azure Data Factory è un servizio creato per tutte le esigenze e i livelli di competenza dell'applicazione dati (allineati all'origine). È possibile scrivere il proprio codice o costruire, estrarre, caricare e trasformare processi all'interno dell'ambiente visivo intuitivo e senza codice. Con più di 90 connettori creati in modo nativo e senza manutenzione, è possibile integrare visivamente le origini dati senza costi aggiuntivi. I tecnici possono usare endpoint privati e servizi di collegamento per connettersi in modo sicuro alle risorse di Azure PaaS (Piattaforma distribuita come servizio) senza usare gli endpoint pubblici della risorsa PaaS. I tecnici possono usare i runtime di integrazione per estendere le pipeline ad ambienti di terze parti come origini dati locali e altri cloud.

Alcuni di questi connettori supportano l'uso come origine (lettura) o come sink (scrittura). I servizi nativi di Azure, Oracle, SAP e altri possono essere usati come origine o sink, ma non tutti i connettori lo supportano. In questi casi, è possibile usare connettori generici come i connettori Open Database Connectivity (ODBC), file system o SSH File Transfer Protocol (SFTP).

  • Azure Databricks è un servizio di analisi veloce, semplice e collaborativo basato su Apache Spark. Per una pipeline di Big Data, è possibile inserire i dati (non elaborati o strutturati) in Azure tramite Data Factory in batch o trasmessi quasi in tempo reale con Apache Kafka, Hub eventi di Azure o hub IoT. I dati vengono inseriti in un data lake per un'archiviazione permanente a lungo termine, in Azure Data Lake Storage. Con Azure Databricks è possibile leggere dati da più origini dati come parte del flusso di lavoro.

  • Microsoft Power Platform offre connettori a centinaia di servizi che possono essere guidati da eventi, pianificazioni o push. Con Microsoft Power Automate si può agire su eventi e attivare flussi di lavoro ottimizzati per singoli record o volumi di dati di piccole dimensioni.

Gli strumenti proprietari nativi e di terze parti assicurano funzionalità di rete per l'integrazione con sistemi specializzati e replica quasi in tempo reale.

  • Condivisione dati di Azure supporta le organizzazioni per condividere i dati in modo sicuro con più clienti e partner esterni. Dopo aver creato un account di condivisione dati e aver aggiunto prodotti dati, i clienti e i partner possono essere invitati alla condivisione dati. I provider di dati rimangono sempre in controllo dei dati che hanno condiviso. Con Condivisione dati di Azure è semplice gestire e monitorare i dati condivisi, quando e con chi.

Importante

Ogni zona di destinazione dei dati ha un gruppo di risorse di inserimento dei metadati esistente per le aziende con un motore di inserimento indipendente dai dati. Se questo motore di framework non è disponibile, l'unica risorsa consigliata consiste nella distribuzione di un'area di lavoro di analisi di Azure Databricks, che verrebbe usata dalle integrazioni dei dati per eseguire l'inserimento complesso. Vedere il motore di inserimento indipendente dai dati per i potenziali modelli di automazione.

Considerazioni sull’inserimento per Azure Data Factory

Se si dispone di un motore di inserimento indipendente dai dati, è necessario distribuire una singola data factory per ogni zona di destinazione dei dati nel gruppo di risorse di inserimento ed elaborazione. L’area di lavoro Data Factory deve essere bloccata agli utenti e solo le entità di identità e servizi gestiti avranno accesso per la distribuzione. Le operazioni della zona di destinazione dei dati devono avere accesso in lettura per consentire il debug della pipeline.

L'applicazione dati può avere un'istanza di Data Factory per lo spostamento dei dati. La disponibilità di un'istanza di Data Factory in ogni gruppo di risorse dell'applicazione dati supporta un'esperienza completa di integrazione continua (CI) e distribuzione continua (CD) consentendo solo la distribuzione di pipeline da Azure DevOps o GitHub.

Tutte le aree di lavoro Data Factory usano principalmente la funzionalità di rete virtuale gestita in Data Factory o runtime di integrazione self-hosted per la zona di destinazione dei dati all'interno della zona di destinazione di gestione dati. I tecnici sono invitati a usare la funzionalità di rete virtuale gestita per connettersi in modo sicuro alla risorsa PaaS di Azure.

È tuttavia possibile creare più runtime di integrazione per l'inserimento da cloud locali di terze parti e da origini dati SaaS (Software as a Service) di terze parti.

Considerazioni sull’inserimento per Azure Databricks

Questo materiale sussidiario elabora le informazioni all'interno di:

  • Protezione dell'accesso ad Azure Data Lake Gen2 da Azure Databricks

  • Procedure consigliate per Azure Databricks

  • Usare Azure Databricks all'interno dell'analisi su scala cloud in Azure

  • Ai fini dello sviluppo, le operazioni di integrazione devono avere i propri ambienti Azure Databricks prima di archiviare il codice da distribuire nell'area di lavoro Azure Databricks singola durante i test e la produzione.

  • Data Factory nel gruppo di risorse dell'applicazione dati (allineato all'origine) deve fornire il framework per chiamare i processi di Azure Databricks.

  • Le entità servizio possono essere utili per montare i data lake in quest’area di lavoro. Per altre informazioni, vedere Modello 1: accesso tramite entità servizio.

  • I team delle applicazioni dati possono distribuire processi brevi e automatizzati in Azure Databricks e prevedere che i cluster inizino rapidamente, eseseguono il processo e terminino. È consigliabile configurare pool di Azure Databricks per ridurre il tempo necessario per l'esecuzione dei processi da parte dei cluster.

  • È consigliabile che le organizzazioni usino Azure DevOps per implementare un framework di distribuzione per le nuove pipeline. Il framework verrà usato per creare le cartelle del set di dati, assegnare elenchi di controllo di accesso e creare una tabella con o senza l'applicazione dei controlli di accesso alle tabelle di Databricks.

Inserimento di flussi

Le organizzazioni potrebbero dover supportare scenari in cui gli editori generano flussi di eventi ad alta velocità. Per questo modello, è consigliabile una coda di messaggi, ad esempio Hub eventi o Hub IoT, per inserire questi flussi.

Hub eventi e hub IoT sono servizi di elaborazione di eventi scalabili che possono inserire ed elaborare grandi volumi di eventi e dati con bassa latenza e affidabilità elevata. Hub eventi è un servizio di streaming di Big Data e di inserimento di eventi. L'hub IoT è un servizio gestito che funge da hub del messaggio centrale per la comunicazione bidirezionale tra un’applicazione di IoT e i dispositivi gestiti. Da qui, i dati possono essere esportati in un data lake a intervalli regolari (batch) ed elaborati con Azure Databricks quasi in tempo reale tramite Apache Spark Streaming, Esplora dati di Azure, Analisi di flusso o Time Series Insights.

L'ultima zona di destinazione di Hub eventi o Apache Kafka all'interno della zona di destinazione specifica del caso d'uso deve inviare i dati aggregati al livello non elaborato del data lake in una delle zone di destinazione dei dati e a Hub eventi correlati al gruppo di risorse dell'applicazione dati (allineato all'origine) nella zona di destinazione dei dati.

Monitorare l'inserimento

È possibile usare il monitoraggio delle pipeline di Azure Data Factory predefinito per monitorare e risolvere i problemi relativi alle eccezioni delle pipeline di Data Factory. Riduce il lavoro richiesto per lo sviluppo di una soluzione di monitoraggio e creazione di report personalizzata.

Il monitoraggio incorporato è uno dei motivi principali per usare Azure Data Factory come strumento di orchestrazione principale e Criteri di Azure possono aiutare ad automatizzare questa configurazione.

Eseguire il mapping tra le origini dati e i servizi

Il materiale sussidiario fornito in questa sezione esegue il mapping tra i servizi di inserimento ed elaborazione e le origini che in genere devono essere inserite o rilasciate da Azure.

Servizi di inserimento:

ID Mechanism Nota
A Data Factory Connettori predefiniti e generici (ODBC, SFTP e REST)
B Azure Databricks Codice personalizzato (JDBC, JAR e altro ancora)
C Terze parti WANdisco, Qlik e Oracle GoldenGate
D Altro Ad esempio, funzionalità native
E Microsoft Power Platform e App per la logica di Azure Connettori Microsoft Power Automate

Mapping tra le origini dati e i servizi:

Provider Type Ospitato Category Note Inserimento con carico completo Inserimento del carico incrementale Inserimento in tempo reale Carico completo in uscita Carico incrementale in uscita Uscita in tempo reale
Oracle Tabulare IaaS Database GoldenGate in Azure Data Lake Storage A, B A, B C A, B A, B C
Microsoft SQL Server Tabulare IaaS Database Trasformazione del panorama SAP e Qlik A, B A, B C, D2 A, B A, B C, D2
MySQL Tabulare IaaS Database Trasformazione del panorama SAP e Qlik A, B A, B C, D2 A, B A, B C, D2
SAP BW/4HANA Tabulare IaaS Database Trasformazione del panorama SAP e Qlik A, B, C, D A, B, C, D C - - -
SAP HANA Tabulare IaaS Database Trasformazione del panorama SAP e Qlik A, B, C, D A, B, C, D C A, B A, B -
Apache Impala Tabulare IaaS Database - A, B A, B - B B -
Microsoft SharePoint Elenco SaaS Archivio record - A, E A, E E A, E A, E E
REST REST Vari REST XML, JSON, CSV A, B, E A, B, E A, B, E A, B, E A, B, E A, B, E
Microsoft Outlook E-mail SaaS REST XML, JSON, CSV E E E E E E

A seconda della destinazione, Servizio Migrazione del database di Azure replica da database locali e di terze parti, ad esempio Microsoft SQL Server, PostgreSQL, MySQL o Oracle, in un archivio dati basato su Azure.

Passaggi successivi

Inserimento SAP con analisi su scala cloud in Azure