Transformar dados usando a atividade do Streaming do Hadoop no Azure Data Factory ou Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

A atividade de streaming no HDInsight em um pipeline do Azure Data Factory ou Synapse Analytics executa programas de streaming do Hadoop em um cluster do HDInsight de sua propriedade ou sob demanda. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas.

Para saber mais, leia os artigos de introdução ao Azure Data Factory e ao Synapse Analytics e siga o tutorial: Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade Streaming do HDInsight a um pipeline com a interface do usuário

Para usar uma atividade Streaming do HDInsight para um pipeline, conclua as seguintes etapas:

  1. Procure Streaming no painel Atividades do pipeline e arraste uma atividade Streaming para a tela do pipeline.

  2. Selecione a nova atividade Streaming na tela se ela ainda não estiver selecionada.

  3. Selecione a guia Cluster HDI para selecionar ou criar um serviço vinculado a um cluster HDInsight que será usado para executar a atividade Streaming.

    Shows the UI for a Streaming activity.

  4. Selecione a guia Arquivo para especificar os nomes do mapeador e do redutor para o trabalho de streaming e selecione ou crie um serviço vinculado a uma conta do Armazenamento do Azure que armazenará os arquivos de mapeador, redutor, entrada e saída do trabalho. Você também pode configurar detalhes avançados, incluindo configuração de depuração, argumentos e parâmetros a serem passados para o trabalho.

    Shows the UI for the File tab for a Streaming activity.

Exemplo de JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalhes da sintaxe

Propriedade Descrição Obrigatório
name Nome da atividade Sim
descrição Texto que descreve qual a utilidade da atividade Não
type Para a atividade de streaming do Hadoop, o tipo de atividade é HDInsightStreaming Sim
linkedServiceName Referência ao cluster do HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Compute linked services (Serviços de computação vinculados). Sim
mapper Especifica o nome do executável do Mapeador Sim
reducer Especifica o nome do executável do Redutor Sim
combiner Especifica o nome do executável de Combinação Não
fileLinkedService Referência a um serviço vinculado de Armazenamento do Azure usado para armazenar os programas Mapeador, Combinação e Redutor a serem executados. Somente os serviços vinculados do Armazenamento de Blobs do Azure e do ADLS Gen2 são compatíveis aqui. Se você não especificar esse serviço vinculado, será usado o serviço vinculado do Armazenamento do Azure definido no serviço vinculado do HDInsight. Não
filePath Forneça uma matriz de caminho para os programas Mapeador, Combinação e Redutor armazenados no Armazenamento do Azure referenciados por fileLinkedService. O caminho diferencia maiúsculas de minúsculas. Sim
input Especifica o caminho do WASB para o arquivo de entrada do Mapeador. Sim
output Especifica o caminho do WASB para o arquivo de saída do Redutor. Sim
getDebugInfo Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster do HDInsight (ou) especificado por scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
argumentos Especifica uma matriz de argumentos para um trabalho do Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
defines Especifique parâmetros como pares chave-valor para referências no script do Hive. Não

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: