Cenário completo de ciência de dados: introdução e arquitetura

Este conjunto de tutoriais demonstra um cenário de ponta a ponta de exemplo na experiência de ciência de dados do Fabric. Você implementa cada etapa, desde a ingestão, limpeza e preparação de dados até o treinamento de modelos de aprendizado de máquina e a geração de insights e, em seguida, consome esses insights usando ferramentas de visualização como o Power BI.

Se você é novo no Microsoft Fabric, consulte O que é o Microsoft Fabric?.

Introdução

O ciclo de vida de um projeto de ciência de dados normalmente inclui (muitas vezes, iterativamente) as seguintes etapas:

  • Compreensão empresarial
  • Aquisição de dados
  • Exploração, limpeza, preparação e visualização de dados
  • Treinamento de modelos e acompanhamento de experimentos
  • Modele a pontuação e gere insights.

Os objetivos e critérios de sucesso de cada etapa dependem da colaboração, compartilhamento de dados e documentação. A experiência de ciência de dados do Fabric consiste em vários recursos criados nativamente que permitem colaboração, aquisição de dados, compartilhamento e consumo de forma contínua.

Nestes tutoriais, você assume o papel de um cientista de dados que recebeu a tarefa de explorar, limpar e transformar um conjunto de dados contendo o status de rotatividade de 10.000 clientes em um banco. Em seguida, você cria um modelo de aprendizado de máquina para prever quais clientes bancários provavelmente sairão.

Você aprenderá a realizar as seguintes atividades:

  1. Use os blocos de anotações de malha para cenários de ciência de dados.
  2. Ingerir dados em uma casa de lago de malha usando o Apache Spark.
  3. Carregue os dados existentes das tabelas delta lakehouse.
  4. Limpe e transforme dados usando Apache Spark e ferramentas baseadas em Python.
  5. Crie experimentos e execuções para treinar diferentes modelos de aprendizado de máquina.
  6. Registre e acompanhe modelos treinados usando MLflow e a interface do usuário do Fabric.
  7. Execute a pontuação em escala e salve previsões e resultados de inferência para a casa do lago.
  8. Visualize previsões no Power BI usando o DirectLake.

Arquitetura

Nesta série de tutoriais, mostramos um cenário simplificado de ciência de dados de ponta a ponta que envolve:

  1. Ingerir dados de uma fonte de dados externa.
  2. Explore e limpe dados.
  3. Treine e registre modelos de aprendizado de máquina.
  4. Execute a pontuação em lote e salve previsões.
  5. Visualize os resultados da previsão no Power BI.

Diagram of the Data science end-to-end scenario components.

Diferentes componentes do cenário de ciência de dados

Fontes de dados - O Fabric torna fácil e rápido conectar-se aos Serviços de Dados do Azure, outras plataformas de nuvem e fontes de dados locais para ingerir dados. Usando o Fabric Notebooks, você pode ingerir dados do Lakehouse, Data Warehouse, modelos semânticos e várias fontes de dados personalizadas compatíveis com Apache Spark e Python. Esta série de tutoriais se concentra na ingestão e carregamento de dados de uma casa de lago.

Explore, limpe e prepare - A experiência de ciência de dados no Fabric suporta limpeza, transformação, exploração e featurização de dados usando experiências integradas no Spark, bem como ferramentas baseadas em Python como Data Wrangler e SemPy Library. Este tutorial mostrará a exploração de dados usando a biblioteca seaborn Python e a limpeza e preparação de dados usando o Apache Spark.

Modelos e experimentos - O Fabric permite treinar, avaliar e pontuar modelos de aprendizado de máquina usando experimentos e itens de modelo integrados com integração perfeita com o MLflow para rastreamento de experimentos e registro/implantação de modelos. O Fabric também apresenta recursos de previsão de modelo em escala (PREDICT) para obter e compartilhar insights de negócios.

Armazenamento - O Fabric padroniza no Delta Lake, o que significa que todos os mecanismos do Fabric podem interagir com o mesmo conjunto de dados armazenado em um lakehouse. Essa camada de armazenamento permite armazenar dados estruturados e não estruturados que suportam armazenamento baseado em arquivo e formato tabular. Os conjuntos de dados e arquivos armazenados podem ser facilmente acessados por meio de todos os itens de experiência do Fabric, como notebooks e pipelines.

Exponha análises e insights - Os dados de um lakehouse podem ser consumidos pelo Power BI, ferramenta de business intelligence líder do setor, para geração de relatórios e visualização. Os dados persistentes na lakehouse também podem ser visualizados em blocos de anotações usando bibliotecas de visualização nativas do Spark ou Python como matplotlib, seaborn, plotlye muito mais. Os dados também podem ser visualizados usando a biblioteca SemPy que oferece suporte a visualizações ricas e específicas de tarefas internas para o modelo de dados semânticos, para dependências e suas violações e para casos de uso de classificação e regressão.

Próximo passo