Funcionalidades do Machine Learning no Azure Synapse Analytics

Artigo
01/02/2025

O Azure Synapse Analytics oferece várias funcionalidades de machine learning. Este artigo fornece uma visão geral de como você pode aplicar Machine Learning no contexto do Azure Synapse.

Esta visão geral aborda as diferentes funcionalidades do Azure Synapse, relacionadas a machine learning, de uma perspectiva do processo de ciência de dados.

Você pode estar familiarizado com a aparência de um processo típico de ciência de dados. É um processo bem conhecido, que a maioria dos projetos de machine learning segue.

Em um alto nível, o processo contém as seguintes etapas:

Reconhecimento comercial (não discutido neste artigo)
Compreensão e aquisição de dados
Modelagem
Implantação de modelo e pontuação

Este artigo descreve as funcionalidades de machine learning do Azure Synapse em diferentes mecanismos de análise, de uma perspectiva do processo de ciência de dados. Para cada etapa no processo de ciência de dados, as funcionalidades do Azure Synapse que podem ajudar são resumidas.

Compreensão e aquisição de dados

A maioria dos projetos de machine learning envolvem etapas bem estabelecidas e uma dessas etapas é acessar e entender os dados.

Fonte de dados e pipelines

Graças ao Azure Data Factory, uma parte nativamente integrada do Azure Synapse, há um poderoso conjunto de ferramentas disponíveis para pipelines de ingestão de dados e orquestração. Isso permite que você crie facilmente pipelines de dados para acessar e transformar os dados em um formato que possa ser consumido para machine learning. Saiba mais sobre pipelines de dados no Azure Synapse.

Preparação e exploração/visualização de dados

Uma parte importante do processo de machine learning é entender os dados por exploração e visualizações.

Dependendo de onde os dados são armazenados, o Azure Synapse oferece um conjunto de ferramentas diferentes para explorá-los e prepará-los para análise e machine learning. Uma das maneiras mais rápidas de começar a explorar dados é usar os pools de SQL sem servidor ou do Apache Spark diretamente sobre os dados no data lake.

O Apache Spark para Azure Synapse oferece funcionalidades para transformar, preparar e explorar seus dados em escala. Esses pools do Spark oferecem ferramentas como PySpark/Python, Scala e .NET para processamento de dados em escala. Usando bibliotecas de visualização avançadas, a experiência de exploração de dados pode ser aprimorada para ajudar a entender melhor os dados. Saiba mais sobre como explorar e visualizar dados no Azure Synapse usando o Spark.
Os pools de SQL sem servidor oferecem um modo de explorar dados usando o TSQL diretamente no data lake. Os pools de SQL sem servidor também oferecem algumas visualizações internas no Synapse Studio. Saiba mais sobre como explorar dados com pools de SQL sem servidor.

Modelagem

No Azure Synapse, os modelos de machine learning de treinamento podem ser executados nos pools do Apache Spark com ferramentas como PySpark/Python, Scala ou .NET.

Treinar modelos em pools do Spark com MLlib

Os modelos de machine learning podem ser treinados com a ajuda de vários algoritmos e bibliotecas. O Spark MLlib oferece algoritmos de machine learning escalonáveis que podem ajudar a resolver os problemas de machine learning mais clássicos. Para obter um tutorial sobre como treinar um modelo usando o MLlib no Synapse, consulte Criar um aplicativo de Machine Learning com o Apache Spark MLlib e o Azure Synapse Analytics.

Além do MLlib, bibliotecas populares, como Scikit Learn, também podem ser usadas para desenvolver modelos. Confira Gerenciar bibliotecas para Apache Spark no Azure Synapse Analytics para obter detalhes sobre como instalar bibliotecas em pools do Synapse Spark.

Implantação de modelo e pontuação

Os modelos que foram treinados no Azure Synapse ou fora dele podem ser facilmente usados para a pontuação de lote. Atualmente, há dos modos de execução de pontuação de lote no Azure Synapse.

Você pode usar a função PREDICT do TSQL em pools de SQL do Synapse para executar suas previsões no local em que seus dados residem. Essa função avançada e escalonável permite enriquecer seus dados sem mover dados para fora do seu data warehouse. Uma nova experiência guiada de modelo de machine learning no Synapse Studio foi introduzida. Nela, você pode implantar um modelo ONNX do registro de modelos do Azure Machine Learning em pools de SQL do Synapse para a pontuação de lote usando PREDICT.
Outra opção para modelos de aprendizado de máquina de pontuação em lote no Azure Synapse é usar os Apache Pool do Spark para Azure Synapse. Dependendo das bibliotecas usadas para treinar os modelos, você pode usar uma experiência de código para executar a pontuação de lote.

SynapseML

O SynapseML (anteriormente conhecido como MMLSpark) é uma biblioteca de código aberto que simplifica a criação de pipelines de ML (aprendizado de máquina) altamente dimensionáveis. É um ecossistema de ferramentas usadas para expandir a estrutura do Apache Spark em diversas novas direções. O SynapseML unifica várias estruturas de aprendizado de máquina existentes e novos algoritmos da Microsoft em uma API única e escalonável que pode ser utilizada em Python, R, Scala, .NET e Java. Para saber mais, confira os principais recursos do SynapseML.

Compartilhar via

Funcionalidades do Machine Learning no Azure Synapse Analytics

Compreensão e aquisição de dados

Fonte de dados e pipelines

Preparação e exploração/visualização de dados

Modelagem

Treinar modelos em pools do Spark com MLlib

Implantação de modelo e pontuação

SynapseML

Comentários

Recursos adicionais

Compartilhar via

Funcionalidades do Machine Learning no Azure Synapse Analytics

Compreensão e aquisição de dados

Fonte de dados e pipelines

Preparação e exploração/visualização de dados

Modelagem

Treinar modelos em pools do Spark com MLlib

Implantação de modelo e pontuação

SynapseML

Conteúdo relacionado

Comentários

Recursos adicionais