Transformace dat pomocí aktivity Hadoop Pig ve službě Azure Data Factory nebo Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Aktivita HDInsight Pig v kanálu služby Data Factory provádí dotazy Pig ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.
Další informace najdete v úvodu ke službě Azure Data Factory nebo Synapse Analytics a proveďte kurz transformace dat před přečtením tohoto článku.
Přidání aktivity HDInsight Pig do kanálu s uživatelským rozhraním
Pokud chcete pro kanál použít aktivitu HDInsight Pig, proveďte následující kroky:
Vyhledejte Pig v podokně Aktivity kanálu a přetáhněte aktivitu Pig na plátno kanálu.
Vyberte novou aktivitu Pig na plátně, pokud ještě není vybraná.
Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity MapReduce.
Vyberte kartu Skript a vyberte nebo vytvořte novou propojenou službu skriptu s umístěním služby Azure Storage, kde bude váš skript hostovaný. Zadejte název třídy, který se tam má spustit, a cestu k souboru v umístění úložiště. Můžete také nakonfigurovat pokročilé podrobnosti, včetně konfigurace ladění a argumentů a parametrů, které se mají předat skriptu.
Syntaxe
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Podrobnosti o syntaxi
Vlastnost | Popis | Povinní účastníci |
---|---|---|
name | Název aktivity | Ano |
description | Text popisující, k čemu se aktivita používá | No |
type | U aktivity Hive je typ aktivity HDinsightPig. | Ano |
linkedServiceName | Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. | Ano |
scriptLinkedService | Odkaz na propojenou službu Azure Storage sloužící k uložení skriptu Pig, který se má spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. | No |
scriptPath | Zadejte cestu k souboru skriptu uloženému ve službě Azure Storage, na kterou odkazuje scriptLinkedService. V názvu souboru se rozlišují malá a velká písmena. | No |
getDebugInfo | Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. | No |
argumenty | Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. | No |
definuje | Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Pig. | No |
Související obsah
Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: