Co je Datová Věda v Microsoft Fabric?
Microsoft Fabric nabízí Datová Věda prostředí, která uživatelům umožňují kompletní pracovní postupy datových věd pro účely rozšiřování dat a obchodních přehledů. Celou řadu aktivit v rámci celého procesu datových věd, od zkoumání dat, přípravy a čištění až po experimentování, modelování, bodování modelu a poskytování prediktivních přehledů sestav BI.
Uživatelé Microsoft Fabric mají přístup k domovské stránce Datová Věda. Odtud můžou zjišťovat a přistupovat k různým relevantním prostředkům. Můžou například vytvářet experimenty, modely a poznámkové bloky strojového učení. Můžou také importovat existující poznámkové bloky na domovské stránce Datová Věda.
Možná víte, jak funguje typický proces datových věd. Jako známý proces se většina projektů strojového učení řídí.
Proces na vysoké úrovni zahrnuje tyto kroky:
- Formulace problému a idea
- Zjišťování a předběžné zpracování dat
- Experimentování a modelování
- Rozšiřování a zprovoznění
- Získávání poznatků
Tento článek popisuje možnosti Datová Věda Microsoft Fabric z hlediska procesu datových věd. Pro každý krok procesu datových věd tento článek shrnuje možnosti Microsoft Fabric, které vám můžou pomoct.
Formulace problému a idea
Datová Věda uživatelé v Microsoft Fabric pracují na stejné platformě jako firemní uživatelé a analytici. Díky tomu je sdílení dat a spolupráce v různých rolích plynulejší. Analytici můžou snadno sdílet sestavy a datové sady Power BI s odborníky na datové vědy. Snadná spolupráce mezi rolemi v Microsoft Fabric usnadňuje předávání během fáze formulace problému.
Zjišťování a předběžné zpracování dat
Uživatelé Microsoft Fabric můžou pracovat s daty ve OneLake pomocí položky Lakehouse. Lakehouse se snadno připojí k poznámkovému bloku a umožňuje procházet data a pracovat s nimi.
Uživatelé mohou snadno číst data z Lakehouse přímo do datového rámce Pandas. Při zkoumání to umožňuje bezproblémová čtení dat z OneLake.
K dispozici je výkonná sada nástrojů pro příjem dat a kanály orchestrace dat s kanály integrace dat – nativně integrovanou součástí Microsoft Fabric. Snadno sestavovat datové kanály můžou přistupovat k datům a transformovat je do formátu, který může strojové učení využívat.
zkoumání dat
Důležitou součástí procesu strojového učení je pochopení dat prostřednictvím zkoumání a vizualizace.
V závislosti na umístění úložiště dat nabízí Microsoft Fabric sadu různých nástrojů pro zkoumání a přípravu dat pro analýzu a strojové učení. Poznámkové bloky se stávají jedním z nejrychlejších způsobů, jak začít zkoumat data.
Apache Spark a Python pro přípravu dat
Microsoft Fabric nabízí možnosti transformace, přípravy a zkoumání dat ve velkém měřítku. S Sparkem můžou uživatelé využívat nástroje PySpark/Python, Scala a SparkR/SparklyR pro předběžné zpracování dat ve velkém měřítku. Výkonné opensourcové knihovny vizualizací můžou vylepšit prostředí pro zkoumání dat, aby lépe porozuměly datům.
Transformace dat pro bezproblémové čištění dat
Prostředí Poznámkového bloku Microsoft Fabric přidalo funkci pro použití služby Data Wrangler, nástroje pro kód, který připravuje data a generuje kód Pythonu. Díky tomuto prostředí je snadné zrychlit zdlouhavé a běžné úlohy – například čištění dat a vytváření opakovatelnosti a automatizace prostřednictvím generovaného kódu. Další informace o službě Data Wrangler najdete v části Data Wrangler tohoto dokumentu.
Experimentování a modelování ML
S nástroji, jako je PySpark/Python, SparklyR/R, můžou poznámkové bloky zpracovávat trénování modelů strojového učení.
Algoritmy a knihovny STROJOVÉho učení můžou pomoct trénovat modely strojového učení. Nástroje pro správu knihoven mohou tyto knihovny a algoritmy nainstalovat. Uživatelé proto mají možnost využít k dokončení trénování modelu STROJOVÉho učení v Microsoft Fabric širokou škálu oblíbených knihoven strojového učení.
Kromě toho můžou oblíbené knihovny, jako je Scikit Learn, vyvíjet také modely.
Experimenty a spuštění MLflow můžou sledovat trénování modelu ML. Microsoft Fabric nabízí integrované prostředí MLflow, se kterým můžou uživatelé pracovat a protokolovat experimenty a modely. Přečtěte si další informace o tom, jak používat MLflow ke sledování experimentů a správě modelů v Microsoft Fabric.
SynapseML
Opensourcová knihovna SynapseML (dříve označovaná jako MMLSpark), kterou Microsoft vlastní a udržuje, zjednodušuje masivně škálovatelné vytváření kanálů strojového učení. Jako ekosystém nástrojů rozšiřuje architekturu Apache Sparku několika novými směry. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API. Opensourcová knihovna SynapseML zahrnuje bohatý ekosystém nástrojů ML pro vývoj prediktivních modelů a také využití předem natrénovaných modelů AI ze služeb Azure AI. Přečtěte si další informace o SynapseML.
Rozšiřování a zprovoznění
Poznámkové bloky můžou zpracovávat dávkové vyhodnocování modelů strojového učení s opensourcovými knihovnami pro predikci nebo škálovatelnou univerzální funkcí Spark Predict pro Microsoft Fabric, která podporuje zabalené modely MLflow v registru modelů Microsoft Fabric.
Získávání poznatků
V Microsoft Fabric se predikované hodnoty dají snadno zapsat do OneLake a bez problémů využívat sestavy Power BI pomocí režimu Power BI Direct Lake. To usnadňuje odborníkům na datové vědy sdílení výsledků z jejich práce se zúčastněnými stranami a také zjednodušuje operacionalizaci.
Poznámkové bloky, které obsahují dávkové bodování, je možné naplánovat tak, aby běžely pomocí možností plánování poznámkového bloku. Dávkové vyhodnocování je také možné naplánovat jako součást aktivit datového kanálu nebo úloh Sparku. Power BI automaticky získá nejnovější předpovědi bez nutnosti načítání nebo aktualizace dat díky režimu Direct Lake v Microsoft Fabric.
Zkoumání dat pomocí sémantického odkazu (Preview)
Důležité
Tato funkce je ve verzi Preview.
Datoví vědci a obchodní analytici tráví spoustu času tím, že se snaží pochopit, vyčistit a transformovat data, než začnou provádět smysluplnou analýzu. Obchodní analytici obvykle pracují s sémantickými modely a kódují znalosti domény a obchodní logiku do měr Power BI. Na druhou stranu datoví vědci můžou pracovat se stejnými daty, ale obvykle v jiném prostředí nebo jazyce kódu.
Sémantický odkaz (Preview) umožňuje datovým vědcům vytvořit propojení mezi sémantických modelů Power BI a Datová Věda Synapse v prostředí Microsoft Fabric prostřednictvím knihovny SemPy Python. SemPy zjednodušuje analýzu dat zachytáváním a využíváním sémantiky dat, protože uživatelé provádějí různé transformace sémantických modelů. Pomocí sémantického propojení můžou datoví vědci:
- vyhnout se nutnosti opětovné implementace obchodní logiky a znalostí domény v kódu
- snadný přístup k mírám Power BI a jejich používání v kódu
- použití sémantiky k napájení nových prostředí, jako jsou sémantické funkce
- prozkoumání a ověření funkčních závislostí a vztahů mezi daty
Díky použití SemPy mohou organizace očekávat, že uvidí:
- vyšší produktivita a rychlejší spolupráce napříč týmy, které pracují se stejnými datovými sadami
- větší spolupráce napříč týmy business intelligence a umělé inteligence
- menší nejednoznačnost a jednodušší křivka učení při připojování k novému modelu nebo datové sadě
Další informace o sémantickém odkazu najdete v tématu Co je sémantický odkaz (Preview)?.
Související obsah
- Začínáme s kompletními ukázkami datových věd, viz Datová Věda kurzy
- Další informace o přípravě a čištění dat pomocí služby Data Wrangler najdete v tématu Transformace dat
- Další informace o sledování experimentů najdete v tématu Experiment strojového učení.
- Další informace o správě modelů najdete v tématu Model strojového učení.
- Další informace o dávkovém bodování pomocí funkce Predict najdete v tématu Určení skóre modelů s predict.
- Obsluha předpovědí z Lakehouse do Power BI s režimem Direct Lake