Transformace dat pomocí aktivity Hadoop Hive ve službě Azure Data Factory nebo Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Aktivita HDInsight Hive v kanálu Azure Data Factory nebo Synapse Analytics spouští dotazy Hive ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.
Pokud s Azure Data Factory a Synapse Analytics teprve začínáte, přečtěte si úvodní články o službě Azure Data Factory nebo Synapse Analytics a před přečtením tohoto článku si přečtěte tento kurz: Transformace dat .
Přidání aktivity HDInsight Hive do kanálu s uživatelským rozhraním
Pokud chcete v kanálu použít aktivitu HDInsight Hive pro Azure Data Lake Analytics, proveďte následující kroky:
Vyhledejte Hive v podokně Aktivity kanálu a přetáhněte aktivitu Hive na plátno kanálu.
Vyberte novou aktivitu Hive na plátně, pokud ještě není vybraná.
Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity Hive.
Výběrem karty Skript vyberte nebo vytvořte novou propojenou službu úložiště a cestu v umístění úložiště, která bude hostovat skript.
Syntaxe
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Podrobnosti o syntaxi
Vlastnost | Popis | Povinní účastníci |
---|---|---|
name | Název aktivity | Ano |
description | Text popisující, k čemu se aktivita používá | No |
type | U aktivity Hive je typ aktivity HDinsightHive. | Ano |
linkedServiceName | Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. | Ano |
scriptLinkedService | Odkaz na propojenou službu Azure Storage sloužící k uložení skriptu Hive, který se má spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. | No |
scriptPath | Zadejte cestu k souboru skriptu uloženému ve službě Azure Storage, na kterou odkazuje scriptLinkedService. V názvu souboru se rozlišují malá a velká písmena. | Ano |
getDebugInfo | Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. | No |
argumenty | Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. | No |
definuje | Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. | No |
queryTimeout | Hodnota časového limitu dotazu (v minutách). Platí, pokud je cluster HDInsight s povoleným balíčkem zabezpečení podniku. | No |
Poznámka:
Výchozí hodnota pro queryTimeout je 120 minut.
Související obsah
Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: