Strumenti per la migrazione di data warehouse Netezza ad Azure Synapse Analytics
Questo articolo è la sesta parte di una serie in sette parti che fornisce indicazioni su come eseguire la migrazione da Netezza ad Azure Synapse Analytics. Questo articolo si concentra sulle procedure consigliate per gli strumenti Microsoft e di terze parti.
Strumenti per la migrazione di data warehouse
Eseguendo la migrazione del data warehouse esistente ad Azure Synapse, è possibile trarre vantaggio da:
Un database analitico sicuro a livello globale, scalabile, a basso costo, nativo del cloud e con pagamento in base al consumo.
L'ecosistema analitico Microsoft avanzato esistente in Azure. Questo ecosistema è costituito da tecnologie che consentono di modernizzare i data warehouse dopo la migrazione ed estendere le funzionalità analitiche per generare nuovo valore.
Diversi strumenti di Microsoft e di partner terzi consentono di eseguire la migrazione del data warehouse esistente ad Azure Synapse. Questo articolo illustra i tipi di strumenti seguenti:
Strumenti per la migrazione di dati e database Microsoft.
Strumenti di automazione del data warehouse di terze parti per automatizzare e documentare la migrazione ad Azure Synapse.
Strumenti di migrazione del data warehouse di terze parti per eseguire la migrazione dello schema e dei dati ad Azure Synapse.
Strumenti di terze parti per colmare le differenze SQL tra il sistema di gestione di database del data warehouse esistente e Azure Synapse.
Strumenti di migrazione dei dati Microsoft
Microsoft offre diversi strumenti che consentono di eseguire la migrazione del data warehouse esistente ad Azure Synapse, ad esempio:
Servizi Microsoft per il trasferimento dei dati fisici.
Servizi Microsoft per l'inserimento dati.
Nelle sezioni seguenti questi strumenti vengono descritti in modo più dettagliato.
Microsoft Azure Data Factory
Data Factory è un servizio di integrazione di dati ibridi completamente gestito e con pagamento in base all'uso per l'elaborazione ELT ed ETL altamente scalabile. Il servizio usa Apache Spark per elaborare e analizzare i dati in parallelo e in memoria al fine di massimizzare la velocità effettiva.
Suggerimento
Data Factory consente di creare pipeline di integrazione dei dati scalabili senza codice.
I connettori di Data Factory supportano le connessioni a origini dati e database esterni e includono modelli per le attività di integrazione dei dati comuni. Un'interfaccia utente visiva basata su browser front-end consente ai non programmatori di creare ed eseguire pipeline per inserire, trasformare e caricare i dati. I programmatori più esperti possono incorporare codice personalizzato, ad esempio programmi Python.
Suggerimento
Data Factory consente lo sviluppo collaborativo tra professionisti aziendali e IT.
Data Factory è anche uno strumento di orchestrazione ed è lo strumento Microsoft migliore per automatizzare il processo di migrazione end-to-end. L'automazione riduce il rischio, lo sforzo e il tempo necessario per eseguire la migrazione e rende facilmente ripetibile il processo di migrazione. Il diagramma seguente illustra un flusso di dati per mapping in Data Factory.
Lo screenshot seguente mostra un flusso di dati per wrangling in Data Factory.
In Data Factory è possibile sviluppare processi ETL ed ELT semplici o completi senza necessità di codifica o manutenzione con pochi clic. Il processo ETL/ELT esegue l’inserimento, lo spostamento, la preparazione, la trasformazione e l'elaborazione dei dati. In Data Factory è possibile progettare e gestire pianificazioni e trigger per costruire un ambiente automatizzato di integrazione e caricamento dei dati. In Data Factory è possibile definire, gestire e pianificare processi di caricamento in blocco dei dati PolyBase.
Suggerimento
Data Factory include strumenti che consentono di eseguire la migrazione dei dati e dell'intero data warehouse ad Azure.
È possibile usare Data Factory per implementare e gestire un ambiente ibrido con dati locali, cloud, streaming e SaaS in modo sicuro e coerente. I dati SaaS possono provenire da applicazioni come Salesforce.
I flussi di dati per wrangling sono una nuova funzionalità in Data Factory. Questa funzionalità apre Data Factory agli utenti aziendali che vogliono individuare, esplorare e preparare i dati su larga scala senza scrivere codice. I flussi di dati per wrangling offrono preparazione dei dati self-service, simile a Microsoft Excel, Power Query e flussi di dati di Microsoft Power BI. Gli utenti aziendali possono preparare e integrare i dati tramite un'interfaccia utente in stile foglio di calcolo con opzioni di trasformazione a discesa.
Data Factory è l'approccio consigliato per implementare l'integrazione dei dati e i processi ETL/ELT nell'ambiente Azure Synapse, soprattutto se si vuole effettuare il refactoring dei processi legacy esistenti.
Servizi Microsoft per il trasferimento dei dati fisici
Le sezioni seguenti illustrano una gamma di prodotti e servizi offerti da Microsoft per assistere i clienti con il trasferimento dei dati.
Azure ExpressRoute
Azure ExpressRoute consente di creare connessioni private tra i data center di Azure e l'infrastruttura nell'ambiente locale o di collocazione. Le connessioni ExpressRoute non usano la rete Internet pubblica e offrono maggiore affidabilità, velocità più elevate e latenze più basse rispetto alle connessioni Internet tradizionali. In alcuni casi, si ottengono vantaggi significativi in termini di costi con l'uso delle connessioni ExpressRoute per trasferire dati tra sistemi locali e Azure.
AzCopy
AzCopy è un'utilità della riga di comando che copia i file in Archiviazione BLOB di Azure tramite una connessione Internet standard. In un progetto di migrazione del warehouse è possibile usare AzCopy per caricare file di testo estratti, compressi e delimitati prima di caricarli in Azure Synapse usando PolyBase. AzCopy può caricare singoli file, selezioni di file o cartelle di file. Se i file esportati sono in formato Parquet, usare invece un lettore Parquet nativo.
Azure Data Box
Azure Data Box è un servizio Microsoft che offre un dispositivo di archiviazione fisico proprietario in cui è possibile copiare i dati di migrazione. Il dispositivo viene quindi spedito a un data center di Azure per il caricamento dei dati nell'archiviazione cloud. Questo servizio può essere conveniente per grandi volumi di dati, ad esempio decine o centinaia di terabyte o nei casi in cui la larghezza di banda di rete non è prontamente disponibile. Azure Data Box viene in genere usato per un carico singolo di dati cronologici di grandi dimensioni in Azure Synapse.
Azure Data Box Gateway
Azure Data Box Gateway è un dispositivo gateway di archiviazione nel cloud virtualizzato che dall'ambiente locale invia immagini, elementi multimediali e altri dati ad Azure. Usare Data Box Gateway per attività di migrazione occasionali o caricamenti incrementali continui dei dati.
Servizi Microsoft per l'inserimento dati
Le sezioni seguenti illustrano i prodotti e i servizi offerti da Microsoft per assistere i clienti con l'inserimento dei dati.
COPY INTO
L'istruzione COPY INTO offre la massima flessibilità per l'inserimento di dati con velocità effettiva elevata in Azure Synapse. Per altre informazioni sulle funzionalità di COPY INTO
, vedere COPY (Transact-SQL).
PolyBase
PolyBase è il metodo più veloce e scalabile per il caricamento in blocco dei dati in Azure Synapse. PolyBase usa l'architettura MPP (Massively Parallel Processing) di Azure Synapse per il caricamento parallelo dei dati per ottenere la velocità effettiva più rapida. PolyBase può leggere i dati da file flat in Archiviazione BLOB di Azure o direttamente da origini dati esterne e da altri database relazionali tramite connettori.
Suggerimento
PolyBase può caricare i dati in parallelo da Archiviazione BLOB di Azure in Azure Synapse.
PolyBase può anche leggere direttamente dai file compressi con gzip per ridurre il volume fisico dei dati durante un processo di caricamento. PolyBase supporta formati di dati comuni, ad esempio testo delimitato, ORC e Parquet.
Suggerimento
È possibile richiamare PolyBase da Data Factory come parte di una pipeline di migrazione.
PolyBase è strettamente integrato con Data Factory per supportare lo sviluppo rapido dei processi ETL/ELT di caricamento dei dati. È possibile pianificare i processi di caricamento dei dati tramite un'interfaccia utente visiva per una maggiore produttività e un minor numero di errori rispetto al codice scritto a mano. Microsoft consiglia PolyBase per l'inserimento dati in Azure Synapse, soprattutto per l'inserimento di dati con volumi elevati.
PolyBase usa istruzioni CREATE TABLE AS
o INSERT...SELECT
per caricare i dati. CREATE TABLE AS
riduce al minimo la registrazione per ottenere la velocità effettiva più elevata. Il formato di inserimento più efficiente per il caricamento dei dati è costituito da file di testo delimitati compressi. Per la velocità effettiva massima, suddividere i file di input di grandi dimensioni in più file più piccoli e caricarli in parallelo. Per il caricamento più rapido in una tabella di staging, definire la tabella di destinazione come tipo HEAP
e usare la distribuzione round robin.
PolyBase presenta alcune limitazioni, richiede che la lunghezza della riga di dati sia inferiore a 1 megabyte e non supporti formati annidati a larghezza fissa come JSON e XML.
Partner Microsoft per le migrazioni Netezza
I partner Microsoft offrono strumenti, servizi e competenze per facilitare la migrazione della piattaforma legacy del data warehouse locale ad Azure Synapse.
Passaggi successivi
Per altre informazioni sull'implementazione di data warehouse moderni, vedere l'articolo successivo di questa serie: Oltre la migrazione di Netezza, implementare un data warehouse moderno in Microsoft Azure.