Preparar modelos de machine learning

O Apache Spark - uma parte do Microsoft Fabric - permite o aprendizado de máquina com big data. Com o Apache Spark, você pode criar informações valiosas em grandes massas de dados estruturados, não estruturados e em movimento rápido. Você tem várias opções de biblioteca de código aberto disponíveis quando treina modelos de aprendizado de máquina com o Apache Spark no Microsoft Fabric: Apache Spark MLlib, SynapseML e outros.

Apache SparkML e MLlib

O Apache Spark - uma parte do Microsoft Fabric - fornece uma estrutura de processamento de dados unificada, de código aberto e paralela. Esta estrutura suporta processamento in-memory que impulsiona a análise de big data. O mecanismo de processamento Spark foi criado para velocidade, facilidade de uso e análises sofisticadas. Os recursos de computação distribuída em memória do Spark o tornam uma boa escolha para os algoritmos iterativos que o aprendizado de máquina e os cálculos gráficos usam.

As bibliotecas de aprendizado de máquina escaláveis MLlib e SparkML trazem recursos de modelagem algorítmica para esse ambiente distribuído. MLlib contém a API original, construída sobre RDDs. SparkML é um pacote mais recente. Ele fornece uma API de nível superior construída sobre DataFrames para a construção de pipelines de ML. O SparkML ainda não suporta todos os recursos do MLlib, mas está substituindo o MLlib como a biblioteca padrão de aprendizado de máquina do Spark.

Nota

Para obter mais informações sobre a criação de modelos SparkML, visite o recurso Train models with Apache Spark MLlib .

O tempo de execução do Microsoft Fabric para Apache Spark inclui vários pacotes populares de código aberto para treinar modelos de aprendizado de máquina. Essas bibliotecas fornecem código reutilizável que você pode incluir em seus programas ou projetos. O tempo de execução inclui estas bibliotecas de aprendizado de máquina relevantes e outras:

  • Scikit-learn - uma das bibliotecas de aprendizado de máquina de nó único mais populares para algoritmos clássicos de ML. O Scikit-learn suporta a maioria dos algoritmos de aprendizagem supervisionados e não supervisionados e pode lidar com mineração e análise de dados.

  • XGBoost - uma biblioteca de aprendizado de máquina popular que contém algoritmos otimizados para treinar árvores de decisão e florestas aleatórias.

  • PyTorch e Tensorflow são poderosas bibliotecas de aprendizagem profunda em Python. Com essas bibliotecas, você pode definir o número de executores em seu pool como zero, para criar modelos de máquina única. Embora essa configuração não suporte o Apache Spark, é uma maneira simples e econômica de criar modelos de máquina única.

SinapseML

A biblioteca de código aberto SynapseML (anteriormente conhecida como MMLSpark) simplifica a criação de pipelines de aprendizado de máquina (ML) massivamente escaláveis. Com ele, o uso do Spark por cientistas de dados se torna mais produtivo porque essa biblioteca aumenta a taxa de experimentação e aplica técnicas de aprendizado de máquina de ponta - incluindo deep learning - em grandes conjuntos de dados.

O SynapseML fornece uma camada acima das APIs de baixo nível do SparkML ao criar modelos de ML escaláveis. Essas APIs abrangem indexação de cadeia de caracteres, montagem de vetores de recursos, coerção de dados em layouts apropriados para algoritmos de aprendizado de máquina e muito mais. A biblioteca SynapseML simplifica essas e outras tarefas comuns para a criação de modelos no PySpark.

Este artigo fornece uma visão geral das várias opções disponíveis para treinar modelos de aprendizado de máquina no Apache Spark no Microsoft Fabric. Para obter mais informações sobre o treinamento de modelos, visite estes recursos: