Transformace dat pomocí aktivity Hadoop Pig ve službě Azure Data Factory nebo Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita HDInsight Pig v kanálu služby Data Factory provádí dotazy Pig ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.

Další informace najdete v úvodu ke službě Azure Data Factory nebo Synapse Analytics a proveďte kurz transformace dat před přečtením tohoto článku.

Přidání aktivity HDInsight Pig do kanálu s uživatelským rozhraním

Pokud chcete pro kanál použít aktivitu HDInsight Pig, proveďte následující kroky:

  1. Vyhledejte Pig v podokně Aktivity kanálu a přetáhněte aktivitu Pig na plátno kanálu.

  2. Vyberte novou aktivitu Pig na plátně, pokud ještě není vybraná.

  3. Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity MapReduce.

    Zobrazuje uživatelské rozhraní aktivity Pig.

  4. Vyberte kartu Skript a vyberte nebo vytvořte novou propojenou službu skriptu s umístěním služby Azure Storage, kde bude váš skript hostovaný. Zadejte název třídy, který se tam má spustit, a cestu k souboru v umístění úložiště. Můžete také nakonfigurovat pokročilé podrobnosti, včetně konfigurace ladění a argumentů a parametrů, které se mají předat skriptu.

    Zobrazuje uživatelské rozhraní pro kartu Skript pro aktivitu Pig.

Syntaxe

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Podrobnosti o syntaxi

Vlastnost Popis Povinní účastníci
name Název aktivity Ano
description Text popisující, k čemu se aktivita používá No
type U aktivity Hive je typ aktivity HDinsightPig. Ano
linkedServiceName Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
scriptLinkedService Odkaz na propojenou službu Azure Storage sloužící k uložení skriptu Pig, který se má spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. No
scriptPath Zadejte cestu k souboru skriptu uloženému ve službě Azure Storage, na kterou odkazuje scriptLinkedService. V názvu souboru se rozlišují malá a velká písmena. No
getDebugInfo Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. No
argumenty Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. No
definuje Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Pig. No

Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: