Kompletní scénář datové vědy: úvod a architektura
Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí pro datové vědy Fabric. Každý krok implementujete od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a následné využití těchto přehledů pomocí vizualizačních nástrojů, jako je Power BI.
Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?
Úvod
Životní cyklus projektu datových věd obvykle zahrnuje (často iterativní) následující kroky:
- Principy podniku
- Získání dat
- Zkoumání, čištění, příprava a vizualizace dat
- Trénování modelů a sledování experimentů
- Modelování bodování a generování přehledů
Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy Fabric se skládá z několika nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.
V těchto kurzech převezmete roli datového vědce, který dostal úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující stav četnosti změn 10 000 zákazníků v bance. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci z banky pravděpodobně odejdou.
Naučíte se provádět následující aktivity:
- Poznámkové bloky Fabric použijte pro scénáře datových věd.
- Ingestování dat do fabric lakehouse pomocí Apache Sparku
- Načtěte existující data z tabulek delta lakehouse.
- Vyčistěte a transformujte data pomocí nástrojů založených na Apache Sparku a Pythonu.
- Vytvářejte experimenty a běhy pro trénování různých modelů strojového učení.
- Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
- Spusťte vyhodnocování ve velkém měřítku a uložte předpovědi a výsledky odvozování do jezera.
- Vizualizace předpovědí v Power BI pomocí DirectLake
Architektura
V této sérii kurzů představujeme zjednodušený komplexní scénář datových věd, který zahrnuje:
- Ingestování dat z externího zdroje dat
- Prozkoumejte a vyčistěte data.
- Trénování a registrace modelů strojového učení
- Proveďte dávkové bodování a uložte předpovědi.
- Vizualizujte výsledky předpovědi v Power BI.
Různé komponenty scénáře datových věd
Zdroje dat – Prostředky infrastruktury usnadňují a rychle se připojují k Azure Data Services, dalším cloudovým platformám a místním zdrojům dat a ingestují data z. Pomocí poznámkových bloků prostředků infrastruktury můžete ingestovat data z předdefinovaných zdrojů dat Lakehouse, Data Warehouse, sémantických modelů a různých zdrojů dat Apache Spark a Python. Tato série kurzů se zaměřuje na ingestování a načítání dat z jezera.
Prozkoumání, vyčištění a příprava – Prostředí pro datové vědy v Prostředcích infrastruktury podporuje čištění dat, transformaci, zkoumání a funkciaturaci pomocí integrovaných prostředí ve Sparku a také nástrojů založených na Pythonu, jako je knihovna Data Wrangler a SemPy Library. Tento kurz předvede zkoumání dat pomocí knihovny seaborn
Pythonu a čištění a přípravy dat pomocí Apache Sparku.
Modely a experimenty – Prostředky infrastruktury umožňují trénovat, vyhodnocovat a vyhodnocovat modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci nebo nasazení modelu. Prostředky infrastruktury také nabízí funkce pro predikci modelu ve velkém měřítku (PREDICT) pro získání a sdílení obchodních přehledů.
Storage – Prostředky infrastruktury standardizuje Delta Lake, což znamená, že všechny moduly Fabric můžou pracovat se stejnou datovou sadou uloženou v jezeře. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a souborům, které jsou uložené, je možné snadno přistupovat prostřednictvím všech položek prostředí Fabric, jako jsou poznámkové bloky a kanály.
Zveřejnění analýzy a přehledů – Data z jezera můžou využívat Power BI, špičkový nástroj business intelligence pro vytváření sestav a vizualizaci. Data uložená v jezeře je možné vizualizovat také v poznámkových blocích pomocí nativních knihoven vizualizace Sparku nebo Pythonu, jako je matplotlib
, seaborn
a plotly
dalších. Data je možné vizualizovat také pomocí knihovny SemPy, která podporuje integrované vizualizace specifické pro konkrétní úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.