Transformace dat ve službě Azure Virtual Network pomocí aktivity Hive ve službě Azure Data Factory pomocí webu Azure Portal

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte kanál Data Factory, který transformuje data pomocí aktivity Hivu v clusteru HDInsight ve službě Azure Virtual Network. V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvoření místního prostředí Integration Runtime
  • Vytvoření propojených služeb Azure Storage a Azure HDInsight
  • Vytvoření kanálu s aktivitou Hivu
  • Aktivace spuštění kanálu
  • Monitorování spuštění kanálu
  • Ověření výstupu

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Požadavky

Poznámka:

Při práci s Azure doporučujeme používat modul Azure Az PowerShellu. Pokud chcete začít, přečtěte si téma Instalace Azure PowerShellu. Informace o tom, jak migrovat na modul Az PowerShell, najdete v tématu Migrace Azure PowerShellu z AzureRM na Az.

  • Účet služby Azure Storage. Vytvoříte skript Hivu a uložíte ho do úložiště Azure. Výstup ze skriptu Hivu je uložený v tomto účtu úložiště. V této ukázce clusteru HDInsight používá tento účet služby Azure Storage jako primární úložiště.

  • Azure Virtual Network. Pokud nemáte virtuální síť Azure, vytvořte ji pomocí těchto pokynů. V této ukázce je HDInsight ve službě Azure Virtual Network. Tady je ukázka konfigurace služby Azure Virtual Network.

    Vytvoření virtuální sítě

  • Cluster HDInsight. Vytvořte cluster HDInsight a připojte ho k virtuální síti, kterou jste vytvořili v předchozím kroku, a na základě informací v článku věnovaném rozšíření Azure HDInsightu s využitím služby Azure Virtual Network. Tady je ukázka konfigurace HDInsightu ve virtuální síti.

    HDInsight ve virtuální síti

  • Azure PowerShell: Postupujte podle pokynů v tématu Jak nainstalovat a nakonfigurovat Azure PowerShell.

  • Virtuální počítač. Vytvořte virtuální počítač Azure a připojte ho do stejné virtuální sítě, která obsahuje váš cluster HDInsight. Podrobnosti najdete v tématu věnovaném postupu při vytváření virtuálních počítačů.

Uložení skriptu Hivu do vašeho účtu služby Blob Storage

  1. Vytvořte soubor SQL Hivu s názvem hivescript.hql a s následujícím obsahem:

    DROP TABLE IF EXISTS HiveSampleOut; 
    CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION '${hiveconf:Output}';
    
    INSERT OVERWRITE TABLE HiveSampleOut
    Select 
        clientid,
        market,
        devicemodel,
        state
    FROM hivesampletable
    
  2. Ve službě Azure Blob Storage, vytvořte kontejner nazvaný adftutorial, pokud ještě neexistuje.

  3. Vytvořte složku s názvem hivescripts.

  4. Uložte soubor hivescript.hql do podsložky hivescripts.

Vytvoření datové továrny

  1. Pokud jste ještě nevytvořili datovou továrnu, postupujte podle kroků v rychlém startu: Vytvoření datové továrny pomocí webu Azure Portal a nástroje Azure Data Factory Studio k jeho vytvoření. Po vytvoření přejděte na webu Azure Portal k datové továrně.

    Snímek obrazovky domovské stránky služby Azure Data Factory s dlaždicí Open Azure Data Factory Studio

  2. Na dlaždici Otevřít azure Data Factory Studio vyberte Otevřít, aby se aplikace Integrace Dat spustila na samostatné kartě.

Vytvoření místního prostředí Integration Runtime

Vzhledem k tomu, že cluster Hadoop je ve virtuální síti, musíte do stejné virtuální sítě nainstalovat místní prostředí Integration Runtime. V této části vytvoříte nový virtuální počítač, připojíte ho do stejné virtuální sítě a nainstalujete na něm místní prostředí IR. Místní prostředí IR umožňuje službě Data Factory odesílat požadavky na zpracování do výpočetní služby, jako je HDInsight, ve virtuální síti. Umožňuje také přesun dat mezi úložištěm dat ve virtuální síti a Azure. Místní prostředí IR použijete i v případě, že je úložiště dat nebo výpočetní služba v místním prostředí.

  1. V uživatelském rozhraní služby Azure Data Factory klikněte v dolní části okna na Připojení, přepněte na kartu Prostředí Integration Runtime a klikněte na tlačítko + Nový na panelu nástrojů.

    Nabídka Nové prostředí Integration Runtime

  2. V okně Instalace prostředí Integration Runtime vyberte možnost Provést přesun dat a odeslání aktivit do externích výpočetních prostředí a klikněte na Další.

    Výběr možnosti Provést přesun dat a odeslání aktivit

  3. Vyberte Privátní síť a klikněte na Další.

    Výběr privátní sítě

  4. Jako Název zadejte MySelfHostedIR a klikněte na Další.

    Zadání názvu prostředí Integration Runtime

  5. Kliknutím na tlačítko kopírování zkopírujte ověřovací klíč pro prostředí Integration Runtime a uložte ho. Nechte okno otevřené. Pomocí tohoto klíče zaregistrujete prostředí IR nainstalovaný na virtuálním počítači.

    Zkopírování ověřovacího klíče

Instalace prostředí IR na virtuálním počítači

  1. Ve virtuálním počítači Azure stáhněte modul runtime integrace v místním prostředí. Použijte ověřovací klíč získaný v předchozím kroku a toto místní prostředí Integration Runtime ručně zaregistrujte.

    Registrace prostředí Integration Runtime

  2. Po úspěšném zaregistrování místního prostředí Integration Runtime se zobrazí následující zpráva.

    Úspěšně zaregistrováno

  3. Klikněte na Spustit Správce konfigurace. Jakmile se uzel připojí ke cloudové službě, zobrazí se následující stránka:

    Uzel je připojen

Místní prostředí IR v uživatelském rozhraní služby Azure Data Factory

  1. V uživatelském rozhraní služby Azure Data Factory by se měl zobrazit název virtuálního počítače v místním prostředí a jeho stav.

    Existující uzly v místním prostředí

  2. Kliknutím na Dokončit zavřete okno Instalace prostředí Integration Runtime. Místním prostředí Integration Runtime se zobrazí v seznamu prostředí Integration Runtime.

    Místní prostředí IR v seznamu

Vytvoření propojených služeb

V této části vytvoříte a nasadíte dvě propojené služby:

  • Propojená služba Azure Storage, která propojí účet služby Azure Storage s datovou továrnou. Toto úložiště používá cluster HDInsight jako primární. V tomto případě použijete tento účet služby Azure Storage k uložení skriptu Hivu a výstupu tohoto skriptu.
  • Propojená služba HDInsight. Azure Data Factory odešle skript Hive do tohoto clusteru HDInsight ke spuštění.

Vytvoření propojené služby Azure Storage

  1. Přepněte na kartu Propojené služby a klikněte na Nová.

    Tlačítko Nová propojená služba

  2. V okně Nová propojená služba vyberte Azure Blob Storage a klikněte na Pokračovat.

    Výběr služby Azure Blob Storage

  3. V okně Nová propojená služba proveďte následující kroky:

    1. Jako Název zadejte AzureStorageLinkedService.

    2. V části Připojit prostřednictvím prostředí Integration Runtime zadejte MySelfHostedIR.

    3. Jako Název účtu úložiště vyberte svůj účet úložiště Azure.

    4. Pokud chcete otestovat připojení k účtu úložiště, klikněte na Test připojení.

    5. Klikněte na Uložit.

      Zadání účtu služby Azure Blob Storage

Vytvoření propojené služby HDInsight

  1. Znovu klikněte na Nová a vytvořte další propojenou službu.

    Tlačítko Nová propojená služba

  2. Přepněte na kartu Výpočetní prostředí, vyberte Azure HDInsight a klikněte na Pokračovat.

    Výběr služby Azure HDInsight

  3. V okně Nová propojená služba proveďte následující kroky:

    1. Jako Název zadejte AzureHDInsightLinkedService.

    2. Vyberte Použít vlastní službu HDInsight.

    3. Jako Cluster HDInsight vyberte váš cluster HDInsight.

    4. Zadejte uživatelské jméno pro cluster HDInsight.

    5. Zadejte heslo pro tohoto uživatele.

      Nastavení služby Azure HDInsight

V tomto článku se předpokládá, že máte ke clusteru přístup přes internet. To znamená, že se ke clusteru můžete připojit třeba na https://clustername.azurehdinsight.net. Tato adresa se používá veřejnou brány, která není dostupná, pokud jste k omezení přístupu z internetu použili skupiny zabezpečení sítě (NSG) nebo uživatelem definované trasy (UDR). Aby datová továrna mohla odesílat úlohy do clusteru HDInsight ve službě Azure Virtual Network, musíte ji nakonfigurovat tak, aby tuto adresu URL bylo možné přeložit na privátní IP adresu brány, kterou používá HDInsight.

  1. Na webu Azure Portal otevřete službu Virtual Network, ve které je HDInsight. Otevřete síťové rozhraní s názvem začínajícím textem nic-gateway-0. Poznamenejte si jeho privátní IP adresu. Příklad: 10.6.0.15.

  2. Pokud Azure Virtual Network má server DNS, aktualizujte záznam DNS tak, aby se adresa URL clusteru HDInsight https://<clustername>.azurehdinsight.net dala přeložit na 10.6.0.15. Pokud ve službě Azure Virtual Network nemáte server DNS, můžete to dočasně obejít tak, že upravíte soubor hostitelů (C:\Windows\System32\drivers\etc) všech virtuálních počítačů, které se registrovaly jako uzly místního prostředí Integration Runtime, a to přidáním položky jako je tato:

    10.6.0.15 myHDIClusterName.azurehdinsight.net

Vytvořit kanál

V tomto kroku pomocí aktivity Hivu vytvoříte nový kanál. Tato aktivity spustí skript Hivu, který vrátí data z ukázkové tabulky a uloží je do cesty, které jste definovali.

Mějte na paměti následující body:

  • Parametr scriptPath odkazuje na cestu ke skriptu Hivu v účtu Azure Storage, který jste použili pro MyStorageLinkedService. V této cestě se rozlišují velká a malá písmena.
  • Output je argument použitý ve skriptu Hivu. Při zadávání odkazu na existující složku ve službě Azure Storage použijte formát wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. V této cestě se rozlišují velká a malá písmena.
  1. V uživatelském rozhraní služby Data Factory klikněte na symbol + (plus) v levém podokně a pak klikněte na Kanál.

    Nabídka Nový kanál

  2. Na panelu nástrojů Aktivity rozbalte HDInsight a přetáhněte aktivitu Hivu na plochu návrháře kanálu.

    Přetažení aktivity Hivu

  3. V okně Vlastnosti přepněte na kartu Cluster HDInsight a jako Propojená služba HDInsight vyberte AzureHDInsightLinkedService.

    Výběr propojené služby HDInsight

  4. Přepněte na kartu Skripty a proveďte následující kroky:

    1. Jako Propojená služba se skriptem zadejte AzureStorageLinkedService.

    2. V části Cesta k souboru klikněte na Procházet úložiště.

      Procházet úložiště

    3. V okně Zvolte soubor nebo složku přejděte do složky hivescripts kontejneru adftutorial, vyberte soubor hivescript.hql a klikněte na Dokončit.

      Zvolte soubor nebo složku

    4. Ověřte, že se jako Cesta k souboru zobrazí adftutorial/hivescripts/hivescript.hql.

      Nastavení skriptu

    5. Na kartě Skript rozbalte část Upřesnit.

    6. V části Parametry klikněte na Automaticky vyplnit ze skriptu.

    7. Zadejte hodnotu parametru Output (Výstup) v následujícím formátu: wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. Například: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.

      Argumenty skriptu

  5. Pokud chcete publikovat artefakty do služby Data Factory, klikněte na Publikovat.

    Snímek obrazovky ukazuje možnost publikování do služby Data Factory.

Aktivace spuštění kanálu

  1. Nejprve kanál ověřte kliknutím na tlačítko Ověřit na panelu nástrojů. Zavřete okno Výstup ověření kanálu kliknutím na šipku vpravo (>>).

    Ověření kanálu

  2. Pokud chcete aktivovat spuštění kanálu, klikněte na Aktivační událost na panelu nástrojů a pak klikněte na Aktivovat.

    Aktivovat

Monitorování spuštění kanálu

  1. Vlevo přepněte na kartu Monitorování. V seznamu Spuštění kanálu se zobrazí spuštění kanálu.

    Monitorování spuštění kanálu

  2. Pokud chcete seznam aktualizovat, klikněte na Aktualizovat.

  3. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, klikněte na Zobrazit spuštění aktivit ve sloupci Akce. Další odkazy na akce slouží k zastavení nebo opětovnému spuštění kanálu.

    Zobrazení spuštění aktivit

  4. Zobrazí se pouze jedno spuštění aktivit, protože kanál obsahuje pouze jednu aktivitu typu HDInsightHive. Pokud chcete přepnout zpět na předchozí zobrazení, klikněte na odkaz Kanály v horní části.

    Spuštění aktivit

  5. Ověřte, že složka outputfolder kontejneru adftutorial obsahuje výstupní soubor.

    Výstupní soubor

V tomto kurzu jste provedli následující kroky:

  • Vytvoření datové továrny
  • Vytvoření místního prostředí Integration Runtime
  • Vytvoření propojených služeb Azure Storage a Azure HDInsight
  • Vytvoření kanálu s aktivitou Hivu
  • Aktivace spuštění kanálu
  • Monitorování spuštění kanálu
  • Ověření výstupu

Pokud se chcete dozvědět víc o transformaci dat pomocí clusteru Spark v Azure, přejděte k následujícímu kurzu: