Kompletní scénář datové vědy: úvod a architektura

Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí pro datové vědy Fabric. Každý krok implementujete od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a následné využití těchto přehledů pomocí vizualizačních nástrojů, jako je Power BI.

Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?

Úvod

Životní cyklus projektu datových věd obvykle zahrnuje (často iterativní) následující kroky:

  • Principy podniku
  • Získání dat
  • Zkoumání, čištění, příprava a vizualizace dat
  • Trénování modelů a sledování experimentů
  • Modelování bodování a generování přehledů

Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy Fabric se skládá z několika nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.

V těchto kurzech převezmete roli datového vědce, který dostal úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující stav četnosti změn 10 000 zákazníků v bance. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci z banky pravděpodobně odejdou.

Naučíte se provádět následující aktivity:

  1. Poznámkové bloky Fabric použijte pro scénáře datových věd.
  2. Ingestování dat do fabric lakehouse pomocí Apache Sparku
  3. Načtěte existující data z tabulek delta lakehouse.
  4. Vyčistěte a transformujte data pomocí nástrojů založených na Apache Sparku a Pythonu.
  5. Vytvářejte experimenty a běhy pro trénování různých modelů strojového učení.
  6. Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
  7. Spusťte vyhodnocování ve velkém měřítku a uložte předpovědi a výsledky odvozování do jezera.
  8. Vizualizace předpovědí v Power BI pomocí DirectLake

Architektura

V této sérii kurzů představujeme zjednodušený komplexní scénář datových věd, který zahrnuje:

  1. Ingestování dat z externího zdroje dat
  2. Prozkoumejte a vyčistěte data.
  3. Trénování a registrace modelů strojového učení
  4. Proveďte dávkové bodování a uložte předpovědi.
  5. Vizualizujte výsledky předpovědi v Power BI.

Diagram of the Data science end-to-end scenario components.

Různé komponenty scénáře datových věd

Zdroje dat – Prostředky infrastruktury usnadňují a rychle se připojují k Azure Data Services, dalším cloudovým platformám a místním zdrojům dat a ingestují data z. Pomocí poznámkových bloků prostředků infrastruktury můžete ingestovat data z předdefinovaných zdrojů dat Lakehouse, Data Warehouse, sémantických modelů a různých zdrojů dat Apache Spark a Python. Tato série kurzů se zaměřuje na ingestování a načítání dat z jezera.

Prozkoumání, vyčištění a příprava – Prostředí pro datové vědy v Prostředcích infrastruktury podporuje čištění dat, transformaci, zkoumání a funkciaturaci pomocí integrovaných prostředí ve Sparku a také nástrojů založených na Pythonu, jako je knihovna Data Wrangler a SemPy Library. Tento kurz předvede zkoumání dat pomocí knihovny seaborn Pythonu a čištění a přípravy dat pomocí Apache Sparku.

Modely a experimenty – Prostředky infrastruktury umožňují trénovat, vyhodnocovat a vyhodnocovat modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci nebo nasazení modelu. Prostředky infrastruktury také nabízí funkce pro predikci modelu ve velkém měřítku (PREDICT) pro získání a sdílení obchodních přehledů.

Storage – Prostředky infrastruktury standardizuje Delta Lake, což znamená, že všechny moduly Fabric můžou pracovat se stejnou datovou sadou uloženou v jezeře. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a souborům, které jsou uložené, je možné snadno přistupovat prostřednictvím všech položek prostředí Fabric, jako jsou poznámkové bloky a kanály.

Zveřejnění analýzy a přehledů – Data z jezera můžou využívat Power BI, špičkový nástroj business intelligence pro vytváření sestav a vizualizaci. Data uložená v jezeře je možné vizualizovat také v poznámkových blocích pomocí nativních knihoven vizualizace Sparku nebo Pythonu, jako je matplotlib, seaborna plotlydalších. Data je možné vizualizovat také pomocí knihovny SemPy, která podporuje integrované vizualizace specifické pro konkrétní úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.

Další krok