Eseguire la migrazione dei dati Hadoop locali su Azure Data Lake Storage Gen2 con la piattaforma WANdisco LiveData per Azure

La piattaforma WANdisco LiveData per Azure esegue la migrazione di petabyte di dati Hadoop locali nei file system di Azure Data Lake Storage Gen2 senza interrompere le operazioni sui dati o richiedere tempi di inattività. I controlli continui della piattaforma impediscono la perdita dei dati mantenendoli coerenti a entrambe le estremità del trasferimento anche durante la modifica.

La piattaforma è costituita da due servizi. LiveData Migrator per Azure esegue la migrazione attiva dei dati usati dagli ambienti locali sull'archiviazione di Azure, e LiveData Plane per Azure garantisce che tutti i dati modificati o inseriti vengano replicati in modo coerente.

Illustrazione della panoramica della piattaforma Live Data

Gestire entrambi i servizi usando il portale di Azure e l'interfaccia della riga di comando di Azure. Ogni servizio segue lo stesso modello di fatturazione con pagamento in base al consumo che seguono tutti gli altri servizi di Azure: l'utilizzo dei dati nella piattaforma LiveData per Azure viene riportato nella fattura mensile di Azure, che fornirà le metriche di utilizzo.

A differenza della migrazione offline dei dati copiando informazioni statiche in Azure Data Box o usando strumenti Hadoop come DistCp, è possibile mantenere il funzionamento completo dei sistemi aziendali durante la migrazione online con WANdisco LiveData per Azure. Mantenere operativi gli ambienti Big Data anche durante lo spostamento dei dati in Azure.

Vantaggi principali della piattaforma WANdisco LiveData per Azure

Il motore di consenso della piattaforma WANdisco LiveData per Azure, in grado di gestire una rete ad ampio raggio, raggiunge la coerenza dei dati ed esegue la replica dei dati in tempo reale su larga scala. Per altre informazioni, guardare il video seguente:

I vantaggi principali della piattaforma includono quanto segue:

  • Accuratezza dei dati: la convalida end-to-end dei dati ne impedisce la perdita e garantisce che i dati trasferiti siano adatti all'uso.

  • Coerenza dei dati: mantenere i volumi di dati automaticamente coerenti tra gli ambienti anche mentre subiscono modifiche continue.

  • Efficienza dei dati: trasferire in modo continuo volumi di dati di grandi dimensioni con controllo completo dell’utilizzo della larghezza di banda.

  • Eliminazione dei tempi di inattività: creare, modificare, leggere ed eliminare liberamente i dati con altre applicazioni durante la migrazione, senza dover interrompere le operazioni aziendali durante il trasferimento dei dati in Azure. Continuare a gestire applicazioni, infrastruttura di analisi, inserimento di processi e altre elaborazioni.

  • Uso semplice: usare l'integrazione di Azure con la piattaforma per creare, configurare, pianificare e tenere traccia dello stato di avanzamento delle migrazioni automatizzate. Configurare inoltre la replica selettiva dei dati, i metadati Hive, la sicurezza dei dati e la riservatezza in base alle esigenze.

Funzionalità principali della piattaforma WANdisco LiveData per Azure

Le funzionalità principali della piattaforma includono quanto segue:

  • Migrazione dei metadati: oltre ai dati HDFS, eseguire la migrazione dei metadati (da Hive e altre risorse di archiviazione) con LiveData Migrator per Azure.

  • Trasferimento pianificato: usare LiveData Migrator per Azure per controllare e automatizzare l'avvio del trasferimento dei dati, eliminando la necessità di eseguire manualmente la migrazione delle modifiche ai dati.

  • Kerberos: LiveData Migrator per Azure supporta cluster Kerberized.

  • Modelli di esclusione: creare regole in LiveData Migrator per Azure per impedire la migrazione di determinate dimensioni o nomi di file (definiti usando modelli GLOB) nell'archiviazione di destinazione. Creare modelli di esclusione nel portale di Azure o con l'interfaccia della riga di comando e applicarli a un numero qualsiasi di migrazioni.

  • Mapping dei percorsi: definire percorsi di destinazione alternativi per file system di destinazione specifici, che spostano automaticamente i dati trasferiti nelle directory specificate.

  • Gestione della larghezza di banda: configurare la quantità massima di larghezza di banda di rete che può usare LiveData Migrator per Azure per evitare l'utilizzo eccessivo della larghezza di banda.

  • Esclusioni: definire query modello che impediscono la migrazione di file e directory che soddisfano i criteri, consentendo di eseguire la migrazione selettiva dei dati dal sistema di origine.

  • Metriche: visualizzare i dettagli sul trasferimento dei dati in LiveData Migrator per Azure, ad esempio i file trasferiti nel tempo, i percorsi esclusi, gli elementi che non sono stati trasferiti e altro ancora.

    LiveData

Eseguire la migrazione dei Big Data più velocemente e senza rischi

Il primo servizio incluso nella piattaforma WANdisco LiveData per Azure è LiveData Migrator per Azure, che esegue la migrazione dei dati dagli ambienti locali ad Archiviazione di Azure. Dopo aver distribuito LiveData Migrator nel cluster Hadoop locale, verrà creata automaticamente la configurazione migliore per il file system. Specificare quindi i dettagli Kerberos del sistema. LiveData Migrator per Azure sarà quindi pronto per eseguire la migrazione dei dati ad Archiviazione di Azure.

LiveData Migrator per l'architettura di Azure

Prima di iniziare con LiveData Migrator per Azure, esaminare questi prerequisiti.

Per eseguire una migrazione:

  1. Nell'interfaccia della riga di comando di Azure:

    • Effettuare la registrazione del provider di risorse WANdisco nell'interfaccia della riga di comando di Azure eseguendo az provider register --namespace Wandisco.Fusion --consent-to-permissions.
    • Accettare le condizioni di fatturazione a consumo della piattaforma LiveData eseguendo az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>.
  2. Distribuire un'istanza LiveData Migrator dal portale di Azure al cluster Hadoop locale. Non è necessario apportare modifiche o riavviare il cluster.

    Creare un'istanza di LiveData Migrator

    Nota

    WANdisco LiveData Migrator per Azure offre la possibilità di creare un cluster di test Hadoop.

  3. Configurare i dettagli Kerberos, se applicabile.

  4. Definire l'account di archiviazione abilitato per Azure Data Lake Storage Gen2 di destinazione.

    Creare una destinazione LiveData Migrator

  5. Definire il percorso dei dati di cui si vuole eseguire la migrazione, ad esempio: /user/hive/warehouse.

    Creare una migrazione LiveData Migrator

  6. Avviare la migrazione.

Monitorare lo stato della migrazione tramite strumenti standard di Azure, tra cui l'interfaccia della riga di comando di Azure e il portale di Azure.

Replicare in modo bidirezionale i dati in una modifica attiva con LiveData Plane per Azure

Il secondo servizio incluso nella piattaforma LiveData è LiveData Plane per Azure. LiveData Plane usa il motore di coordinamento di WANdisco per mantenere coerenti i dati in molti cluster Hadoop locali e in Archiviazione di Azure, applicando in modo intelligente le modifiche ai dati su tutti i sistemi, rimuovendo il rischio di conflitti di dati in punti di utilizzo diversi.

LiveData Plane per l'architettura di Azure

Dopo la migrazione iniziale, mantenere i dati coerenti con LiveData Plane per Azure:

  1. Distribuire LiveData Plane per Azure locale e in Azure, a partire dal portale di Azure. Non sono necessarie modifiche all'applicazione.

  2. Configurare le regole di replica applicabili ai percorsi dei dati che si desidera mantenere coerenti, ad esempio: /user/contoso/sales/region/WA.

  3. Eseguire applicazioni che accedono e modificano i dati in entrambe le posizioni in base alle esigenze.

LiveData Plane per Azure replica in modo coerente le modifiche ai dati in tutti gli ambienti senza alcun impatto significativo sulle prestazioni del cluster o sulle prestazioni dell'applicazione.

Test drive o versione di valutazione

Dalla pagina della piattaforma LiveData per Azure Marketplace sono disponibili due opzioni:

  • Il pulsante Ottieni subito avvia il servizio nella sottoscrizione. Da qui, è possibile usare il proprio cluster Hadoop o il cluster di valutazione di WANdisco.

  • Selezionare Test Drive per testare LiveData Migrator per Azure in un ambiente preconfigurato e ospitato automaticamente. In questo modo è possibile provare LiveData Migrator per Azure prima di aggiungerlo alla sottoscrizione, senza costi o rischi per i dati.

Passaggi successivi

Vedi anche