Cenário completo de ciência de dados: introdução e arquitetura
Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementa cada etapa, desde a ingestão, limpeza e preparação de dados até o treinamento de modelos de aprendizado de máquina e a geração de insights e, em seguida, consome esses insights usando ferramentas de visualização como o Power BI.
Se você é novo no Microsoft Fabric, consulte O que é o Microsoft Fabric?.
Introdução
O ciclo de vida de um projeto de ciência de dados normalmente inclui (muitas vezes, iterativamente) as seguintes etapas:
- Compreensão empresarial
- Aquisição de dados
- Exploração, limpeza, preparação e visualização de dados
- Treinamento de modelos e acompanhamento de experimentos
- Modele a pontuação e gere insights.
Os objetivos e critérios de sucesso de cada etapa dependem da colaboração, compartilhamento de dados e documentação. A experiência de ciência de dados do Fabric consiste em vários recursos criados nativamente que permitem colaboração, aquisição de dados, compartilhamento e consumo de forma contínua.
Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados contendo o status de rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de aprendizado de máquina para prever quais clientes bancários provavelmente sairão.
Você aprenderá a realizar as seguintes atividades:
- Use os blocos de anotações de malha para cenários de ciência de dados.
- Ingerir dados em uma casa de lago de malha usando o Apache Spark.
- Carregue os dados existentes das tabelas delta lakehouse.
- Limpe e transforme dados usando Apache Spark e ferramentas baseadas em Python.
- Crie experimentos e execuções para treinar diferentes modelos de aprendizado de máquina.
- Registre e acompanhe modelos treinados usando MLflow e a interface do usuário do Fabric.
- Execute a pontuação em escala e salve previsões e resultados de inferência para a casa do lago.
- Visualize previsões no Power BI usando o DirectLake.
Arquitetura
Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:
- Ingerir dados de uma fonte de dados externa.
- Explore e limpe dados.
- Treine e registre modelos de aprendizado de máquina.
- Execute a pontuação em lote e salve previsões.
- Visualize os resultados da previsão no Power BI.
Diferentes componentes do cenário de ciência de dados
Fontes de dados - O Fabric torna fácil e rápido conectar-se aos Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais para ingerir dados. Usando o Fabric Notebooks, você pode ingerir dados do Lakehouse, Data Warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra na ingestão e carregamento de dados de uma casa de lago.
Explore, limpe e prepare - A experiência de ciência de dados no Fabric suporta limpeza, transformação, exploração e featurização de dados usando experiências integradas no Spark, bem como ferramentas baseadas em Python como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca seaborn
Python e a limpeza e preparação de dados usando o Apache Spark.
Modelos e experimentos - O Fabric permite treinar, avaliar e pontuar modelos de aprendizado de máquina usando experimentos e itens de modelo integrados com integração perfeita com o MLflow para rastreamento de experimentos e registro/implantação de modelos. O Fabric também apresenta recursos de previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.
Armazenamento - O Fabric padroniza no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenado em um lakehouse. Essa camada de armazenamento permite armazenar dados estruturados e não estruturados que suportam armazenamento baseado em arquivo e formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.
Exponha análises e insights - Os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta de business intelligence líder do setor, para geração de relatórios e visualização. Os dados persistentes na lakehouse também podem ser visualizados em blocos de anotações usando bibliotecas de visualização nativas do Spark ou Python como matplotlib
, seaborn
, plotly
e muito mais. Os dados também podem ser visualizados usando a biblioteca SemPy que oferece suporte a visualizações ricas e específicas de tarefas internas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.