Transformar dados no Azure Data Factory e no Azure Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Importante

O suporte para o Azure Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. Recomendamos que faça a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, não é possível criar novos recursos (clássicos) do Machine Learning Studio (espaço de trabalho e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Machine Learning Studio (clássicos). Para obter mais informações, consulte:

A documentação do Machine Learning Studio (clássica) está sendo desativada e pode não ser atualizada no futuro.

Descrição geral

Este artigo explica as atividades de transformação de dados no Azure Data Factory e nos pipelines Synapse que você pode usar para transformar e processar seus dados brutos em previsões e insights em escala. Uma atividade de transformação é executada em um ambiente de computação como o Azure Databricks ou o Azure HDInsight. Ele fornece links para artigos com informações detalhadas sobre cada atividade de transformação.

O serviço suporta as seguintes atividades de transformação de dados que podem ser adicionadas a pipelines individualmente ou encadeadas com outra atividade.

Transforme nativamente no Azure Data Factory e no Azure Synapse Analytics com fluxos de dados

Fluxos de dados de mapeamento

Os fluxos de dados de mapeamento são transformações de dados projetadas visualmente no Azure Data Factory e no Azure Synapse. Os fluxos de dados permitem que os engenheiros de dados desenvolvam lógica gráfica de transformação de dados sem escrever código. Os fluxos de dados resultantes são executados como atividades dentro de pipelines que usam clusters Spark expandidos. As atividades de fluxo de dados podem ser operacionalizadas por meio dos recursos existentes de agendamento, controle, fluxo e monitoramento dentro do serviço. Para obter mais informações, consulte Mapeando fluxos de dados.

Disputa de dados

O Power Query no Azure Data Factory permite a disputa de dados em escala de nuvem, o que permite que você faça a preparação de dados sem código em escala de nuvem iterativamente. A disputa de dados integra-se com o Power Query Online e disponibiliza as funções do Power Query M para disputa de dados à escala da nuvem através da execução de faíscas. Para obter mais informações, consulte Disputa de dados no Azure Data Factory.

Nota

Atualmente, o Power Query só tem suporte no Azure Data Factory e não no Azure Synapse. Para obter uma lista de recursos específicos com suporte em cada serviço, consulte Recursos disponíveis no Azure Data Factory & Pipelines do Azure Synapse Analytics.

Transformações externas

Opcionalmente, você pode codificar manualmente transformações e gerenciar o ambiente de computação externo por conta própria.

Atividade do HDInsight Hive

A atividade do HDInsight Hive em um pipeline executa consultas do Hive por conta própria ou sob demanda no cluster HDInsight baseado em Windows/Linux. Consulte o artigo de atividade do Hive para obter detalhes sobre essa atividade.

Atividade do HDInsight Pig

A atividade do HDInsight Pig em um pipeline executa consultas do Pig por conta própria ou sob demanda no cluster HDInsight baseado em Windows/Linux. Consulte o artigo Atividade do porco para obter detalhes sobre essa atividade.

Atividade do HDInsight MapReduce

A atividade MapReduce do HDInsight em um pipeline executa programas MapReduce por conta própria ou sob demanda no cluster HDInsight baseado em Windows/Linux. Consulte o artigo da atividade MapReduce para obter detalhes sobre essa atividade.

Atividade de streaming do HDInsight

A atividade de Streaming do HDInsight em um pipeline executa programas Hadoop Streaming por conta própria ou no cluster HDInsight baseado em Windows/Linux sob demanda. Consulte Atividade de streaming do HDInsight para obter detalhes sobre essa atividade.

Atividade do HDInsight Spark

A atividade HDInsight Spark em um pipeline executa programas Spark em seu próprio cluster HDInsight. Para obter detalhes, consulte Invocar programas Spark com o Azure Data Factory ou o Azure Synapse Analytics.

Atividades ML Studio (clássico)

Importante

O suporte para o Azure Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. Recomendamos que faça a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, não é possível criar novos recursos (clássicos) do Machine Learning Studio (espaço de trabalho e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Machine Learning Studio (clássicos). Para obter mais informações, consulte:

A documentação do Machine Learning Studio (clássica) está sendo desativada e pode não ser atualizada no futuro.

O serviço permite que você crie facilmente pipelines que usam um serviço Web ML Studio (clássico) publicado para análise preditiva. Usando a atividade Execução em lote em um pipeline, você pode invocar um serviço Web Studio (clássico) para fazer previsões sobre os dados em lote.

Com o tempo, os modelos preditivos nos experimentos de pontuação do Studio (clássicos) precisam ser retreinados usando novos conjuntos de dados de entrada. Depois de concluir o retreinamento, você deseja atualizar o serviço Web de pontuação com o modelo de aprendizado de máquina retreinado. Você pode usar a atividade Atualizar recurso para atualizar o serviço Web com o modelo recém-treinado.

Consulte Usar atividades do ML Studio (clássicas) para obter detalhes sobre essas atividades do Studio (clássicas).

Atividade de procedimento armazenado

Você pode usar a atividade de Procedimento Armazenado do SQL Server em um pipeline do Data Factory para invocar um procedimento armazenado em um dos seguintes armazenamentos de dados: Banco de Dados SQL do Azure, Azure Synapse Analytics, Banco de Dados do SQL Server em sua empresa ou uma VM do Azure. Consulte o artigo Atividade de procedimento armazenado para obter detalhes.

Atividade U-SQL no Data Lake Analytics

A atividade U-SQL do Data Lake Analytics executa um script U-SQL em um cluster do Azure Data Lake Analytics. Consulte o artigo de atividade U-SQL do Data Analytics para obter detalhes.

Atividade do Azure Synapse Notebook

A Atividade do Bloco de Anotações do Azure Synapse em um pipeline do Synapse executa um bloco de anotações Synapse em seu espaço de trabalho do Azure Synapse. Consulte Transformar dados executando um bloco de anotações do Azure Synapse.

Atividade do Databricks Notebook

A Atividade do Bloco de Anotações do Azure Databricks em um pipeline executa um bloco de anotações Databricks em seu espaço de trabalho do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Consulte Transformar dados executando um bloco de anotações Databricks.

Atividade do Databricks Jar

A Atividade Jar do Azure Databricks em um pipeline executa um Jar do Spark em seu cluster do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Consulte Transformar dados executando uma atividade Jar no Azure Databricks.

Atividade do Databricks Python

A Atividade Python do Azure Databricks em um pipeline executa um arquivo Python em seu cluster do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Consulte Transformar dados executando uma atividade Python no Azure Databricks.

Atividade personalizada

Se você precisar transformar dados de uma forma que não seja suportada pelo Data Factory, poderá criar uma atividade personalizada com sua própria lógica de processamento de dados e usar a atividade no pipeline. Você pode configurar a atividade personalizada do .NET para ser executada usando um serviço de Lote do Azure ou um cluster do Azure HDInsight. Consulte o artigo Usar atividades personalizadas para obter detalhes.

Pode criar uma atividade personalizada para executar scripts R no seu cluster do HDInsight com R instalado. Consulte Executar script R usando o Azure Data Factory e pipelines Synapse.

Ambientes de computação

Você cria um serviço vinculado para o ambiente de computação e, em seguida, usa o serviço vinculado ao definir uma atividade de transformação. Existem dois tipos suportados de ambientes de computação.

  • On-Demand: Neste caso, o ambiente de computação é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar dados e removido quando o trabalho é concluído. Você pode configurar e controlar configurações granulares do ambiente de computação sob demanda para execução de tarefas, gerenciamento de cluster e ações de inicialização.
  • Traga o seu: nesse caso, você pode registrar seu próprio ambiente de computação (por exemplo, cluster HDInsight) como um serviço vinculado. O ambiente de computação é gerenciado por você e o serviço o usa para executar as atividades.

Consulte o artigo Compute Linked Services para saber mais sobre os serviços de computação suportados.

Consulte o tutorial a seguir para obter um exemplo de como usar uma atividade de transformação: Tutorial: transformar dados usando o Spark