Kompleksowe scenariusze nauki o danych: wprowadzenie i architektura

Artykuł
03/05/2024

Ten zestaw samouczków przedstawia przykładowy scenariusz kompleksowej nauki o danych w usłudze Fabric. Każdy krok można zaimplementować od pozyskiwania, czyszczenia i przygotowywania danych do trenowania modeli uczenia maszynowego i generowania szczegółowych informacji, a następnie korzystać z tych szczegółowych informacji przy użyciu narzędzi do wizualizacji, takich jak usługa Power BI.

Jeśli dopiero zaczynasz korzystać z usługi Microsoft Fabric, zobacz Co to jest usługa Microsoft Fabric?.

Wprowadzenie

Cykl życia projektu nauki o danych zwykle obejmuje (często iteracyjne) następujące kroki:

Poznawanie firmy
Pozyskiwanie danych
Eksploracja, czyszczenie, przygotowywanie i wizualizacja danych
Trenowanie modelu i śledzenie eksperymentów
Ocenianie modelu i generowanie szczegółowych informacji.

Cele i kryteria sukcesu każdego etapu zależą od współpracy, udostępniania danych i dokumentacji. Środowisko nauki o danych sieci Szkieletowej składa się z wielu natywnych funkcji, które umożliwiają współpracę, pozyskiwanie danych, udostępnianie i zużycie w bezproblemowy sposób.

W tych samouczkach pełnisz rolę analityka danych, który otrzymał zadanie eksplorowania, czyszczenia i przekształcania zestawu danych zawierającego stan zmian 10 000 klientów w banku. Następnie utworzysz model uczenia maszynowego, aby przewidzieć, którzy klienci bankowi prawdopodobnie odejdą.

Dowiesz się, jak wykonywać następujące działania:

Notesy sieci szkieletowej służą do obsługi scenariuszy nauki o danych.
Pozyskiwanie danych do usługi Fabric Lakehouse przy użyciu platformy Apache Spark.
Załaduj istniejące dane z tabel różnicowych usługi Lakehouse.
Czyszczenie i przekształcanie danych przy użyciu narzędzi opartych na platformie Apache Spark i języku Python.
Tworzenie eksperymentów i przebiegów w celu trenowania różnych modeli uczenia maszynowego.
Rejestrowanie i śledzenie wytrenowanych modeli przy użyciu platformy MLflow i interfejsu użytkownika sieci szkieletowej.
Uruchamianie oceniania na dużą skalę i zapisywanie przewidywań i wyników wnioskowania w lakehouse.
Wizualizowanie przewidywań w usłudze Power BI przy użyciu usługi DirectLake.

Architektura

W tej serii samouczków prezentujemy uproszczony scenariusz nauki o danych, który obejmuje:

Pozyskiwanie danych z zewnętrznego źródła danych.
Eksplorowanie i czyszczenie danych.
Trenowanie i rejestrowanie modeli uczenia maszynowego.
Przeprowadź ocenianie wsadowe i zapisz przewidywania.
Wizualizowanie wyników przewidywania w usłudze Power BI.

Różne składniki scenariusza nauki o danych

Źródła danych — sieć szkieletowa ułatwia i szybkie łączenie się z usługami Azure Data Services, innymi platformami w chmurze i lokalnymi źródłami danych w celu pozyskiwania danych z. Za pomocą notesów sieci szkieletowej można pozyskiwać dane z wbudowanych źródeł danych typu Lakehouse, Data Warehouse, semantycznych oraz różnych źródeł danych obsługiwanych przez platformę Apache Spark i Python. Ta seria samouczków koncentruje się na pozyskiwaniu i ładowaniu danych z magazynu lakehouse.

Eksplorowanie, czyszczenie i przygotowywanie — środowisko nauki o danych w usłudze Fabric obsługuje czyszczenie danych, przekształcanie, eksplorację i cechowanie przy użyciu wbudowanych środowisk na platformie Spark, a także narzędzi opartych na języku Python, takich jak Data Wrangler i Biblioteka SemPy. W tym samouczku przedstawiono eksplorację danych przy użyciu biblioteki języka Python oraz czyszczenia i przygotowywania danych przy użyciu platformy seaborn Apache Spark.

Modele i eksperymenty — sieć szkieletowa umożliwia trenowanie, ocenianie i ocenianie modeli uczenia maszynowego przy użyciu wbudowanych elementów eksperymentów i modeli z bezproblemową integracją z platformą MLflow na potrzeby śledzenia eksperymentów i rejestracji/wdrażania modelu. Sieć szkieletowa udostępnia również funkcje przewidywania modelu na dużą skalę (PREDICT) w celu uzyskania i udostępniania szczegółowych informacji biznesowych.

Magazyn — sieć szkieletowa standandalizuje usługę Delta Lake, co oznacza, że wszystkie aparaty sieci Szkieletowej mogą wchodzić w interakcje z tym samym zestawem danych przechowywanym w usłudze Lakehouse. Ta warstwa magazynu umożliwia przechowywanie zarówno danych ze strukturą, jak i bez struktury, które obsługują zarówno magazyn oparty na plikach, jak i format tabelaryczny. Dostęp do zestawów danych i plików przechowywanych można łatwo uzyskać za pośrednictwem wszystkich elementów środowiska usługi Fabric, takich jak notesy i potoki.

Uwidaczniaj analizę i szczegółowe informacje — dane z usługi Lakehouse mogą być używane przez usługę Power BI, wiodące w branży narzędzie do analizy biznesowej na potrzeby raportowania i wizualizacji. Dane utrwalane w usłudze Lakehouse można również wizualizować w notesach przy użyciu natywnych bibliotek wizualizacji platformy Spark lub języka Python, takich jak matplotlib, , seabornplotlyi innych. Dane można również wizualizować przy użyciu biblioteki SemPy, która obsługuje wbudowane, szczegółowe wizualizacje dla semantycznego modelu danych, zależności i ich naruszeń oraz przypadków użycia klasyfikacji i regresji.

Następny krok

Przygotowywanie systemu na potrzeby samouczka dotyczącego nauki o danych

Udostępnij za pośrednictwem

Kompleksowe scenariusze nauki o danych: wprowadzenie i architektura

Wprowadzenie

Architektura

Różne składniki scenariusza nauki o danych

Następny krok

Opinia

Dodatkowe zasoby