Transformace dat pomocí aktivity streamování Hadoop ve službě Azure Data Factory nebo Synapse Analytics
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Aktivita streamování HDInsight v kanálu Azure Data Factory nebo Synapse Analytics spouští programy streamování Hadoop ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.
Další informace najdete v úvodních článcích o službě Azure Data Factory a Synapse Analytics a v tomto kurzu: transformace dat před přečtením tohoto článku.
Přidání aktivity streamování HDInsight do kanálu s uživatelským rozhraním
Pokud chcete k kanálu použít aktivitu streamování HDInsight, proveďte následující kroky:
Vyhledejte streamování v podokně Aktivity kanálu a přetáhněte aktivitu streamování na plátno kanálu.
Pokud ještě není vybraná, vyberte na plátně novou aktivitu streamování.
Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity streamování.
Výběrem karty Soubor zadejte názvy mapperu a redukčního nástroje pro úlohu streamování a vyberte nebo vytvořte novou propojenou službu s účtem Azure Storage, který bude mapovačem, redukčním, vstupním a výstupním souborům úlohy. Můžete také nakonfigurovat pokročilé podrobnosti, včetně konfigurace ladění, argumentů a parametrů, které se mají předat úloze.
Ukázka JSON
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Podrobnosti o syntaxi
Vlastnost | Popis | Povinní účastníci |
---|---|---|
name | Název aktivity | Ano |
description | Text popisující, k čemu se aktivita používá | No |
type | U aktivity streamování Hadoop je typ aktivity HDInsightStreaming. | Ano |
linkedServiceName | Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. | Ano |
kartograf | Určuje název spustitelného souboru mapperu. | Ano |
reduktor | Určuje název spustitelného souboru redukčního souboru. | Ano |
kombinační funkce | Určuje název spustitelného souboru kombinátoru. | No |
fileLinkedService | Odkaz na propojenou službu Azure Storage, která slouží k ukládání programů Mapper, Combiner a Reducer, které se mají spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. | No |
filePath | Zadejte pole cesty k programům Mapper, Combiner a Reducer uloženým ve službě Azure Storage, na kterou odkazuje fileLinkedService. V této cestě se rozlišují velká a malá písmena. | Ano |
input | Určuje cestu WASB ke vstupnímu souboru mapperu. | Ano |
output | Určuje cestu WASB k výstupnímu souboru redukce. | Ano |
getDebugInfo | Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. | No |
argumenty | Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. | No |
definuje | Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. | No |
Související obsah
Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: