Apresentando o machine learning do Spark em Clusters de Big Data do SQL Server
Aplica-se a: SQL Server 2019 (15.x)
Importante
O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.
Este artigo explica como usar efetivamente o Spark para machine learning nos Clusters de Big Data do SQL Server.
Machine learning do Spark em Clusters de Big Data do SQL Server
Os Clusters de Big Data do SQL Server habilitam cenários e soluções de machine learning usando diferentes pilhas de tecnologia: Serviços de Machine Learning do SQL Server e Apache Spark ML.
Para entender melhor quando usar cada pilha de tecnologia, confira o guia de machine learning para Clusters de Big Data do SQL Server. Este guia abrange o Apache Spark ML.
Em cenários de machine learning baseados em Big Data, o uso do HDFS para hospedagem de Big Data e dos recursos do Apache Spark ML é uma abordagem mais econômica, escalonável e eficiente. Ainda assim, isso está longe de uma lista completa das possibilidades do machine learning do Spark. Confira a lista completa de recursos em Spark MLlib.
A próxima seção contém uma lista organizada de cenários e referências do Spark nos Clusters de Big Data do SQL Server.
Componentes do machine learning do Spark nos Clusters de Big Data do SQL Server
Learn | Sumário | Link |
---|---|---|
Runtime dos Clusters de Big Data do SQL Server para Apache Spark | Isso mostra o que está incluído em cada versão | Guia do runtime dos Clusters de Big Data do SQL Server para Apache Spark |
O pool de armazenamento | Como armazenar e usar o HDFS + Spark juntos para desbloquear dados para machine learning | Introdução ao pool de armazenamento em Clusters de Big Data do SQL Server |
Use experiências baseadas em notebook e as ferramentas de sua escolha | Conecte ponto de extremidade Spark-Livy usando as ferramentas de sua escolha | Enviar trabalhos do Spark nos Clusters de Big Data do SQL Server no Azure Data Studio Enviar trabalhos do Spark em clusters de Big Data do SQL Server no Visual Studio Code Usar o sparklyr em clusters de Big Data do SQL Server |
Como instalar pacotes extras | No caso de um pacote não ser fornecido pronto para uso, instale-o | Gerenciamento de bibliotecas do Spark |
Como solucionar os problemas | Caso haja problemas | Solucionar problemas de notebooks pyspark Depurar e diagnosticar aplicativos Spark nos Clusters de Big Data do SQL Server no Servidor de Histórico do Spark |
Como enviar trabalhos em lotes de machine learning | Executar treinamento de ML e pontuação em lote usando a linha de comando | Enviar trabalhos do Spark usando ferramentas de linha de comando |
Como mover dados rapidamente entre o SQL Server e o Spark | Torne o SQL Server a origem e/ou o destino dos cenários de ML do Spark. O uso do HDFS não é obrigatório | Usar o Conector do Apache Spark para SQL Server e Azure SQL |
Operacionalização do modelo Spark | Após o treinamento, operacionalize usando MLeap | Criar, exportar e pontuar modelos de machine learning do Spark nos Clusters de Big Data do SQL Server |
Estruturação de dados | Juntamente com os poderosos recursos de estruturação de dados do Spark, enviamos o PROSE | Estruturação de dados usando o Acelerador de Código PROSE |
Próximas etapas
Para saber mais, confira Introdução a Clusters de Big Data do SQL Server.