Caricare dati in Azure Data Lake Storage Gen1 tramite Azure Data Factory

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

Azure Data Lake Storage Gen1 (in precedenza noto come Azure Data Lake Store) è un repository su vasta scala a livello aziendale per carichi di lavoro di analisi di Big Data. Data Lake Storage Gen1 consente di acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento. I dati vengono acquisiti in una singola posizione per le analisi esplorative e operative.

Azure Data Factory è un servizio di integrazione dei dati completamente gestito e basato sul cloud. È possibile usare il servizio per popolare il lake con i dati dal sistema esistente e risparmiare tempo durante la compilazione di soluzioni di analisi.

Azure Data Factory offre i vantaggi seguenti per il caricamento di dati in Azure Data Lake Storage Gen1:

  • Semplicità di configurazione: procedura guidata intuitiva in 5 passaggi, senza necessità di script.
  • Supporto completo per archivi dati: supporto integrato per una vasta gamma di archivi dati locali e basati su cloud. Per un elenco dettagliato, vedere la tabella degli archivi dati supportati.
  • Sicurezza e conformità: i dati vengono trasferiti tramite HTTPS o ExpressRoute. La presenza di un servizio globale garantisce che i dati non oltrepassino mai il confine geografico.
  • Prestazioni elevate: fino a 1 GB/s di velocità di caricamento dati in Azure Data Lake Storage Gen1. Per informazioni, vedere Prestazioni dell'attività di copia.

Questo articolo illustra come usare lo strumento Copia dati di Data Factory per caricare dati da Amazon S3 in Azure Data Lake Storage Gen1. È possibile seguire una procedura simile a quella usata per copiare dati da altri tipi di archivi dati.

Prerequisiti

  • Sottoscrizione di Azure: se non è disponibile una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Account Azure Data Lake Storage Gen1: se non si dispone di un account Azure Data Lake Storage Gen1, vedere le istruzioni in Creare un account Data Lake Storage Gen1.
  • Amazon S3: in questo articolo viene illustrato come copiare i dati da Amazon S3. È possibile usare altri archivi dati seguendo una procedura simile.

Creare una data factory

  1. Se non è ancora stato creato il data factory, seguire la procedura descritta in Avvio rapido: creare un data factory usando il portale di Azure e Azure Data Factory Studio per crearne uno. Dopo averlo creato, passare alla data factory nel portale di Azure.

    Home page per Azure Data Factory, con il riquadro Apri Azure Data Factory Studio.

  2. Selezionare Apri nel riquadro Apri Azure Data Factory Studio per avviare l'applicazione Integrazione dei dati in una scheda separata.

Inserire i dati in Data Lake Storage Gen1

  1. Nella home page selezionare il riquadro Inserimento per avviare lo strumento Copia dati:

    Screenshot che mostra la home page di Azure Data Factory.

  2. Nella pagina Proprietà specificare CopyFromAmazonS3ToADLS per il campo Nome attività, quindi selezionare Avanti:

    Pagina Proprietà

  3. Nella pagina Archivio dati di origine selezionare + Crea nuova connessione:

    Pagina Archivio dati di origine

    Selezionare Amazon S3 e quindi Continua

    Pagina Archivio dati di origine s3

  4. Nella pagina Specificare la connessione ad Amazon S3, effettuare i passaggi seguenti:

    1. Specificare il valore ID della chiave di accesso.

    2. Specificare il valore Chiave di accesso segreta.

    3. Selezionare Fine.

      Screenshot che mostra il riquadro Nuovo servizio collegato in cui è possibile immettere i valori.

    4. Si noterà una nuova connessione. Selezionare Avanti.

    Screenshot che mostra la nuova connessione.

  5. Nella pagina Choose the input file or folder (Scegliere il file o la cartella di input) passare alla cartella e al file da copiare. Selezionare la cartella o il file, selezionare Scegli, quindi selezionare Avanti:

    Scegliere il file o la cartella di input

  6. Scegliere il comportamento di copia selezionando le opzioni Copia i file in modo ricorsivo e Copia binaria (copia i file così come sono). Selezionare Next (Avanti):

    Screenshot che mostra l'opzione Scegliere il file o la cartella di input in cui è possibile selezionare Copia file in modo ricorsivo e Copia binaria.

  7. Nella pagina Archivio dati di destinazione selezionare + Crea nuova connessione e quindi selezionare Azure Data Lake Storage Gen1 e selezionare Continua:

    Pagina dell'archivio dati di destinazione

  8. Nella pagina Nuovo servizio collegato (Azure Data Lake Storage Gen1) seguire questa procedura:

    1. Selezionare l'account Data Lake Storage Gen1 per il nome dell'account Data Lake Storage.
    2. Specificare il Tenant e scegliere Fine.
    3. Selezionare Avanti.

    Importante

    In questa procedura dettagliata si usa un'identità gestita delle risorse di Azure per autenticare l'account Data Lake Storage Gen1. Assicurarsi di concedere le autorizzazioni appropriate all'entità del servizio gestita in Data Lake Storage Gen1 seguendo queste istruzioni.

    Specificare un account Data Lake Storage Gen1

  9. Nella pagina Choose the output file or folder (Scegliere il file o la cartella di output) immettere copyfroms3 come nome della cartella di output, quindi selezionare Avanti:

    Screenshot che mostra il percorso della cartella immesso.

  10. Nella pagina Impostazioni selezionare Avanti:

    Pagina delle impostazioni

  11. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti:

    Pagina Riepilogo

  12. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività):

    Pagina Distribuzione

  13. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. La colonna Azioni contiene collegamenti per visualizzare i dettagli delle esecuzioni dell'attività ed eseguire di nuovo la pipeline:

    Monitorare le esecuzioni delle pipeline

  14. Per visualizzare le esecuzioni di attività associate all'esecuzione della pipeline, selezionare il collegamento View Activity Runs (Visualizza le esecuzioni di attività) nella colonna Azioni. Dato che la pipeline contiene una sola attività (attività di copia), viene visualizzata una sola voce. Per tornare alla visualizzazione delle esecuzioni di pipeline, selezionare il collegamento Pipeline in alto. Selezionare Aggiorna per aggiornare l'elenco.

    Monitorare le esecuzioni delle attività

  15. Per monitorare i dettagli di esecuzione per ogni attività di copia, selezionare il collegamento Dettagli in Azioni nella visualizzazione di monitoraggio delle attività. È possibile monitorare dettagli come il volume dei dati copiati dall'origine al sink, la velocità effettiva dei dati, i passaggi di esecuzione con la durata corrispondente e le configurazioni usate:

    Monitorare i dettagli di esecuzione delle attività

  16. Verificare che i dati vengano copiati nell'account Data Lake Storage Gen1:

    Verificare l'output di Data Lake Storage Gen1

Leggere l'articolo seguente per altre informazioni sul supporto di Azure Data Lake Storage Gen1: