Strumento Copia dati in Azure Data Factory e Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

Lo strumento Copia dati semplifica e ottimizza il processo di inserimento dei dati in un data lake, che in genere è un primo passaggio in uno scenario di integrazione dei dati end-to-end. Consente di risparmiare tempo, soprattutto quando si usa il servizio per inserire i dati da un'origine dati per la prima volta. Questi sono alcuni dei vantaggi offerti dallo strumento:

  • Quando si usa lo strumento Copia dati, non è necessario comprendere le definizioni del servizio per servizi collegati, set di dati, pipeline, attività e trigger.
  • Il flusso dello strumento Copia dati per caricare i dati in un data lake è intuitivo. Lo strumento crea automaticamente tutte le risorse necessarie per copiare i dati dall'archivio dati di origine selezionato all'archivio dati di destinazione/sink selezionato.
  • Lo strumento Copia dati consente di convalidare i dati inseriti in fase di creazione, permettendo così di evitare già dall'inizio possibili errori.
  • Se è necessario implementare una logica di business complessa per caricare i dati in un data lake, è comunque possibile modificare le risorse create dallo strumento Copia dati usando la creazione per attività nell'interfaccia utente.

La tabella seguente fornisce indicazioni su quando usare lo strumento Copia dati e la creazione per ogni attività nell'interfaccia utente:

Strumento Copia dati Creazione per singola attività (copia)
Si vuole creare facilmente un'attività di caricamento dei dati senza conoscere le entità (servizi collegati, set di dati, pipeline e così via) Si vuole implementare una logica complessa e flessibile per il caricamento di dati nel lake.
Si vuole caricare rapidamente un numero notevole di elementi dati in un data lake. Si vuole concatenare l'attività di copia con le attività successive di pulizia o elaborazione dei dati.

Per avviare lo strumento Copia dati, fare clic sul riquadro Inserimento nella home page dell'interfaccia utente di Data Factory o Synapse Studio.

Dopo aver avviato lo strumento di copia dei dati, verranno visualizzati due tipi di attività: una è l'attività di copia predefinita e un'altra è l'attività di copia basata sui metadati. L'attività di copia predefinita consente di creare una pipeline entro cinque minuti per replicare i dati senza conoscere le entità. L'attività di copia basata sui metadati per semplificare il percorso di creazione di pipeline con parametri e tabella di controllo esterna per gestire la copia di grandi quantità di oggetti (ad esempio, migliaia di tabelle) su larga scala. È possibile visualizzare altri dettagli nei dati di copia basati sui metadati.

Flusso intuitivo per il caricamento di dati in un data lake

Questo strumento consente di spostare i dati da un'ampia gamma di origini alle destinazioni desiderate in modo semplice e rapido, seguendo un flusso intuitivo:

  1. Configurare le impostazioni per l'origine.

  2. Configurare le impostazioni per la destinazione.

  3. Configurare impostazioni avanzate per l'operazione di copia, ad esempio il mapping delle colonne, le impostazioni per le prestazioni e quelle relative alla tolleranza di errore.

  4. Definire una pianificazione per l'attività di caricamento dei dati.

  5. Esaminare il riepilogo delle entità da creare.

  6. Modificare la pipeline per aggiornare le impostazioni per l'attività di copia in base alle esigenze.

    Lo strumento è stato concepito fin da subito per l'uso con i Big Data e offre il supporto per svariati tipi di oggetti e dati. È possibile usarlo per spostare una quantità notevole di cartelle, file o tabelle. Lo strumento supporta inoltre l'anteprima automatica dei dati, l'acquisizione e il mapping automatico dello schema, nonché l'applicazione di filtri ai dati.

Copy Data tool

Anteprima automatica dei dati

È possibile visualizzare in anteprima una parte dei dati dall'archivio dati di origine selezionato, in modo da poter convalidare i dati che vengono copiati. Inoltre, se l'origine dati è in un file di testo, lo strumento Copia dati analizza il file per rilevare automaticamente lo schema e i delimitatori di riga e colonna.

File settings

Dopo il rilevamento, selezionare Anteprima dati:

Detected file settings and preview

Acquisizione e mapping automatico dello schema

In molti casi lo schema dell'origine dati può non essere uguale a quello della destinazione. Se succede, è necessario eseguire il mapping delle colonne che appartengono allo schema di origine con le colonne dello schema di destinazione.

Lo strumento Copia dati è in grado di monitorare e apprendere il comportamento dell'utente quando esegue il mapping delle colonne tra gli archivi di origine e destinazione. Dopo che l'utente ha selezionato una o più colonne dall'archivio dati di origine e ne ha eseguito il mapping con lo schema di destinazione, lo strumento Copia dei dati inizia ad analizzare il criterio adottato per la selezione delle coppie di colonne in entrambi gli archivi e quindi applica lo stesso criterio alle colonne rimanenti. Si noterà così che tutte le colonne vengono mappate alla destinazione nel modo desiderato solo dopo poche semplici operazioni. Se non si è soddisfatti del mapping delle colonne eseguito dallo strumento Copia dati, è possibile ignorarlo e continuare l'operazione manualmente. Nel frattempo, lo strumento Copia dati acquisisce altre informazioni e aggiorna costantemente il modello in modo da identificare il criterio corretto che l'utente vuole adottare per il mapping delle colonne.

Nota

Quando si copiano dati da SQL Server o database SQL di Azure in Azure Synapse Analytics, se la tabella non esiste nell'archivio di destinazione, lo strumento Copia dati supporta automaticamente la creazione della tabella usando lo schema di origine.

Filtro dei dati

È possibile filtrare i dati di origine per selezionare soltanto quelli da copiare nell'archivio dati sink. L'uso del filtro consente di ridurre il volume di dati da copiare nell'archivio dati sink, aumentando l'efficacia dell'operazione di copia. Lo strumento Copia dati offre un modo flessibile per filtrare i dati in un database relazionale con il linguaggio di query SQL o per filtrare i file in una cartella BLOB di Azure.

Filtrare i dati in un database

Lo screenshot seguente mostra una query SQL usata per filtrare i dati.

Filter data in a database

Filtrare i dati in una cartella BLOB di Azure

Per copiare i dati da una cartella, è possibile usare variabili nel percorso della cartella. Le variabili supportate sono {year}, {month}, {day}, {hour} e {minute}. Ad esempio: inputfolder/{year}/{month}/{day}.

Si supponga di avere cartelle di input nel formato seguente:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Fare clic sul pulsante Sfoglia per File o cartella, passare a una di queste cartelle (ad esempio, 2016-03-01-02>>>) e fare clic su Scegli. Nella casella di testo dovrebbe essere visualizzato 2016/03/01/02.

Sostituire quindi 2016 con {year}, 03 con {month}, 01 con {day} e 02 con {hour} e premere TAB. Quando si seleziona Caricamento incrementale: nomi di cartella/file partizionati in tempo nella sezione Comportamento caricamento file e si seleziona Pianificazione o finestra a cascata nella pagina Proprietà, verranno visualizzati elenchi a discesa per selezionare il formato per queste quattro variabili:

Filter file or folder

Lo strumento Copia dati genera parametri con espressioni, funzioni e variabili di sistema che possono essere usate per rappresentare {year}, {month}, {day}, {hour} e {minute} durante la creazione della pipeline.

Opzioni di programmazione

È possibile eseguire l'operazione di copia una sola volta oppure in base a una pianificazione, con cadenza oraria, giornaliera e così via. Queste opzioni possono essere usate per i connettori tra diversi ambienti, inclusi l'ambiente locale, il cloud e il computer desktop.

Un'operazione di copia eseguita una sola volta permette di spostare dati da un'origine a una destinazione una sola volta. Si applica ai dati di qualsiasi dimensione e in qualsiasi formato supportato. L'operazione di copia pianificata consente di copiare i dati in base a una ricorrenza specificata. Per configurare la copia pianificata sono disponibili impostazioni avanzate, come la ripetizione dei tentativi, il timeout, gli avvisi e così via.

Scheduling options

Provare a eseguire queste esercitazioni in cui viene usato lo strumento Copia dati: