Trasferire i dati da e verso Azure

Sono disponibili diverse opzioni per il trasferimento dei dati da e verso Azure, in base alle esigenze specifiche:

Trasferimento fisico

L'uso di hardware fisico per il trasferimento dei dati in Azure è una buona opzione nelle situazioni seguenti:

  • La rete è lenta o poco affidabile.
  • Un aumento della larghezza di banda di rete è troppo dispendioso.
  • I criteri di sicurezza o dell'organizzazione non consentono connessioni in uscita quando si gestiscono dati sensibili.

Se il tempo necessario per trasferire i dati è di interesse prioritario, può essere opportuno eseguire un test per verificare se il trasferimento tramite rete è effettivamente più lento del trasporto fisico.

Per il trasporto fisico dei dati in Azure sono disponibili due opzioni:

Il servizio Importazione/Esportazione di Azure

Il servizio Importazione/Esportazione di Azure consente di trasferire in modo sicuro grandi quantità di dati su Azure Blob Storage o File di Azure spedendo unità disco rigido (HDD) o SDD SATA interne a un data center di Azure. Puoi anche usare questo servizio per trasferire dati da Azure Storage a unità disco rigido e farti spedire tali unità per il caricamento in locale.

Azure Data Box

Azure Data Box è un'appliance fornita da Microsoft che funziona in modo analogo al servizio Importazione/Esportazione. Quando Data Box Microsoft spedisce un'appliance proprietaria, sicura e antimanomissione per il trasferimento dei dati e gestisce la logistica dall'inizio alla fine, consentendone il monitoraggio tramite il portale. Uno dei vantaggi del servizio Data Box è dato dalla facilità d'uso. Non è necessario acquistare più unità disco rigido, prepararle e trasferire i file in ciascuna di esse. Data Box è supportato da numerosi partner di Azure con un ruolo leader nel settore per usare con più facilità il trasferimento offline dei dati nel cloud dai loro prodotti.

Strumenti da riga di comando e API

Prendere in considerazione queste opzioni quando si vuole effettuare un trasferimento dei dati a livello di codice e di script:

  • L'interfaccia della riga di comando di Azure è uno strumento multipiattaforma che consente di gestire i servizi di Azure e caricare i dati in Archiviazione.

  • AzCopy. Eseguire AzCopy da una riga di comando di Windows o Linux riga di comando per copiare facilmente i dati da e verso Blob Storage, Azure File Storage e Azure Table Storage con prestazioni ottimali. AzCopy supporta la concorrenza e il parallelismo e consente di riprendere le operazioni di copia in caso di interruzione. È possibile usare AzCopy anche per copiare i dati da AWS ad Azure. Per l'accesso a livello di codice, AzCopy è basato sul framework della libreria per lo spostamento dei dati di Archiviazione di Microsoft Azure. Viene fornito come libreria .NET Core.

  • Con PowerShell, il cmdlet Start-AzureStorageBlobCopy di PowerShell è un'opzione per gli amministratori di Windows abituati a usare PowerShell.

  • AdlCopy consente di copiare i dati da Blob Storage ad Azure Data Lake Storage. Può essere utilizzato anche per copiare dati tra due account Data Lake Storage. ma non da Data Lake Store ai BLOB del servizio di archiviazione.

  • Distcp viene usato per copiare i dati da e verso un'archiviazione cluster HDInsight (WASB) in un account Data Lake Storage.

  • Sqoop è un progetto di Apache e fa parte dell'ecosistema Hadoop. È preinstallato in tutti i cluster HDInsight. Consente il trasferimento dei dati tra un cluster HDInsight e database relazionali come SQL, Oracle, MySQL e così via. Sqoop è una raccolta di strumenti correlati, inclusi quelli per l'importazione e l'esportazione. Sqoop interagisce con i cluster HDInsight usando una risorsa di archiviazione collegata, come BLOB del servizio di archiviazione di o Data Lake Store.

  • PolyBase è una tecnologia che accede a dati esterni al database tramite il linguaggio T-SQL. In SQL Server 2016 consente di eseguire query su dati esterni in Hadoop oppure di importare o esportare dati da Archiviazione BLOB. In Azure Synapse Analytics è possibile importare o esportare i dati da Archiviazione BLOB di Azure e da Data Lake Store. PolyBase è attualmente il metodo più veloce per importare i dati in Azure Synapse Analytics.

  • Usare la riga di comando di Hadoop quando si dispone di dati che si trovano in un nodo head del cluster HDInsight. È possibile usare il hadoop -copyFromLocal comando per copiare i dati nell'archivio collegato del cluster, ad esempio Archiviazione BLOB o Data Lake Storage. Per usare il comando di Hadoop, è necessario prima di tutto connettersi al nodo head. Dopo aver stabilito la connessione, sarà possibile caricare un file nella risorsa di archiviazione.

Interfaccia grafica

Prendere in considerazione le opzioni seguenti se si prevede di trasferire solo alcuni file o oggetti dati e non è necessario automatizzare il processo.

  • Azure Storage Explorer è uno strumento multipiattaforma che consente di gestire il contenuto degli account di archiviazione di Azure. Con questo strumento è possibile caricare, scaricare e gestire BLOB, file, code, tabelle ed entità di Azure Cosmos DB. Usarlo con l'archiviazione BLOB per gestire BLOB e cartelle e anche per caricare e scaricare BLOB tra il file system locale e l'archiviazione BLOB o tra gli account di archiviazione.

  • Portale di Azure. L'archiviazione BLOB e Data Lake Store offrono entrambi un'interfaccia basata sul Web per esplorare i file e caricare nuovi file uno alla volta. Si tratta di un'ottima scelta se non si vogliono installare strumenti o eseguire comandi per esplorare rapidamente i file o caricare contemporaneamente un certo numero di nuovi file.

Sincronizzazione dati e pipeline

  • Azure Data Factory è un servizio gestito particolarmente adatto per trasferire abitualmente file tra un certo numero di servizi di Azure, il sistema locale o una combinazione dei due. Con Data Factory è possibile creare e pianificare flussi di lavoro basati sui dati, detti pipeline, che inseriscono dati provenienti da archivi diversi. Data Factory può elaborare e trasformare i dati usando servizi di calcolo, ad esempio Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics e Azure Machine Learning. Creando flussi di lavoro basati sui dati è possibile orchestrare e automatizzare le attività di spostamento e trasformazione dei dati.

  • Questo articolo fornisce informazioni sulle pipeline e sulle attività in Azure Data Factory e su come usarle per creare flussi di lavoro completi basati sui dati per gli scenari di elaborazione e trasferimento dei dati. Inoltre, il runtime di integrazione Azure Data Factory viene utilizzato per fornire funzionalità di integrazione dei dati tra diversi ambienti di rete.

  • Anche Data Box Gateway trasferisce i dati verso e da Azure, ma si tratta di un'appliance virtuale, non di un hard drive. Le macchine virtuali che risiedono nella rete locale scrivono dati in Data Box Gateway usando i protocolli NFS (Network File System) e SMB. Il dispositivo trasferisce quindi i dati ad Azure.

Criteri di scelta principali

Per gli scenari di trasferimento dei dati, rispondere prima di tutto a queste domande per scegliere il sistema adatto alle proprie esigenze:

  • È necessario trasferire grandi quantità di dati e il trasferimento attraverso un connessione Internet potrebbe richiedere troppo tempo oppure essere troppo dispendioso o poco affidabile? In caso affermativo, prendere in considerazione un'opzione di trasferimento fisico.

  • Si preferisce creare script per le attività di trasferimento dei dati, in modo da poterli riutilizzare? In caso affermativo, scegliere una delle opzioni che prevedono l'uso di una riga di comando o Data Factory.

  • È necessario trasferire una grande quantità di dati attraverso una connessione di rete? In questo caso, scegliere un'opzione ottimizzata per i Big Data.

  • È necessario trasferire dati da o verso un database relazionale? In caso affermativo, scegliere un'opzione con il supporto per uno o più database relazionali. Alcune di queste opzioni è richiesto anche un cluster Hadoop.

  • È necessario configurare un'orchestrazione automatizzata di una pipeline di dati o di un flusso di lavoro? In caso affermativo, prendere in considerazione Data Factory.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Trasferimento fisico

Funzionalità Servizio Importazione/Esportazione Data Box
Fattore di forma Dischi SATA HDD o SDD interni Singola appliance hardware, sicura e antimanomissione
Microsoft gestisce la logistica della spedizione No
Si integra con i prodotti partner No
Appliance personalizzata No

Strumenti da riga di comando

Hadoop/HDInsight:

Funzionalità DistCp Sqoop Riga di comando di Hadoop
Ottimizzazione per Big Data
Copia in database relazionale No No
Copia da database relazionale No No
Copia in archiviazione BLOB
Copia da archiviazione BLOB No
Copia in Data Lake Store
Copiare da Data Lake Storage No

Altre:

Funzionalità L'interfaccia della riga di comando di Azure AzCopy PowerShell AdlCopy PolyBase
Piattaforme compatibili Linux, OS X, Windows Linux, Windows Finestre Linux, OS X, Windows Server SQL, Azure Synapse Analytics
Ottimizzazione per Big Data No No 1 2
Copia in database relazionale No No No No
Copia da database relazionale No No No No
Copia in archiviazione BLOB No
Copia da archiviazione BLOB
Copia in Data Lake Store No
Copiare da Data Lake Storage No No

[1] AdlCopy è ottimizzato per il trasferimento di Big Data se usato con un account Data Lake Analytics.

[2] È possibile migliorare le prestazioni di PolyBase eseguendo il push delle operazioni di calcolo in Hadoop e usando i gruppi con scalabilità orizzontale PolyBase per consentire il trasferimento dei dati parallelo tra le istanze di SQL Server e i nodi Hadoop.

Interfacce grafiche, sincronizzazione dati e pipeline di dati

Funzionalità Azure Storage Explorer Portale di Azure * Data Factory Data Box Gateway
Ottimizzazione per Big Data No No
Copia in database relazionale No No No
Copia da database relazionale No No No
Copia in archiviazione BLOB No
Copia da archiviazione BLOB No No
Copia in Data Lake Store No No No
Copiare da Data Lake Storage No No No
Caricamento in archiviazione BLOB
Caricamento in Data Lake Store
Orchestrazione dei trasferimenti di dati No No No
Trasformazioni dei dati personalizzate No No No
Modello di determinazione prezzi Gratuito Gratuito Pagamento in base all'utilizzo Pagamento per unità

* In questo contesto l'opzione relativa al portale di Azure si riferisce all'uso degli strumenti di esplorazione basati sul Web per l'archiviazione BLOB e Data Lake Store.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autore principale:

Passaggi successivi