Kompleksowe scenariusze nauki o danych: wprowadzenie i architektura

Ten zestaw samouczków przedstawia przykładowy scenariusz kompleksowej nauki o danych w usłudze Fabric. Każdy krok można zaimplementować od pozyskiwania, czyszczenia i przygotowywania danych do trenowania modeli uczenia maszynowego i generowania szczegółowych informacji, a następnie korzystać z tych szczegółowych informacji przy użyciu narzędzi do wizualizacji, takich jak usługa Power BI.

Jeśli dopiero zaczynasz korzystać z usługi Microsoft Fabric, zobacz Co to jest usługa Microsoft Fabric?.

Wprowadzenie

Cykl życia projektu nauki o danych zwykle obejmuje (często iteracyjne) następujące kroki:

  • Poznawanie firmy
  • Pozyskiwanie danych
  • Eksploracja, czyszczenie, przygotowywanie i wizualizacja danych
  • Trenowanie modelu i śledzenie eksperymentów
  • Ocenianie modelu i generowanie szczegółowych informacji.

Cele i kryteria sukcesu każdego etapu zależą od współpracy, udostępniania danych i dokumentacji. Środowisko nauki o danych sieci Szkieletowej składa się z wielu natywnych funkcji, które umożliwiają współpracę, pozyskiwanie danych, udostępnianie i zużycie w bezproblemowy sposób.

W tych samouczkach pełnisz rolę analityka danych, który otrzymał zadanie eksplorowania, czyszczenia i przekształcania zestawu danych zawierającego stan zmian 10 000 klientów w banku. Następnie utworzysz model uczenia maszynowego, aby przewidzieć, którzy klienci bankowi prawdopodobnie odejdą.

Dowiesz się, jak wykonywać następujące działania:

  1. Notesy sieci szkieletowej służą do obsługi scenariuszy nauki o danych.
  2. Pozyskiwanie danych do usługi Fabric Lakehouse przy użyciu platformy Apache Spark.
  3. Załaduj istniejące dane z tabel różnicowych usługi Lakehouse.
  4. Czyszczenie i przekształcanie danych przy użyciu narzędzi opartych na platformie Apache Spark i języku Python.
  5. Tworzenie eksperymentów i przebiegów w celu trenowania różnych modeli uczenia maszynowego.
  6. Rejestrowanie i śledzenie wytrenowanych modeli przy użyciu platformy MLflow i interfejsu użytkownika sieci szkieletowej.
  7. Uruchamianie oceniania na dużą skalę i zapisywanie przewidywań i wyników wnioskowania w lakehouse.
  8. Wizualizowanie przewidywań w usłudze Power BI przy użyciu usługi DirectLake.

Architektura

W tej serii samouczków prezentujemy uproszczony scenariusz nauki o danych, który obejmuje:

  1. Pozyskiwanie danych z zewnętrznego źródła danych.
  2. Eksplorowanie i czyszczenie danych.
  3. Trenowanie i rejestrowanie modeli uczenia maszynowego.
  4. Przeprowadź ocenianie wsadowe i zapisz przewidywania.
  5. Wizualizowanie wyników przewidywania w usłudze Power BI.

Diagram of the Data science end-to-end scenario components.

Różne składniki scenariusza nauki o danych

Źródła danych — sieć szkieletowa ułatwia i szybkie łączenie się z usługami Azure Data Services, innymi platformami w chmurze i lokalnymi źródłami danych w celu pozyskiwania danych z. Za pomocą notesów sieci szkieletowej można pozyskiwać dane z wbudowanych źródeł danych typu Lakehouse, Data Warehouse, semantycznych oraz różnych źródeł danych obsługiwanych przez platformę Apache Spark i Python. Ta seria samouczków koncentruje się na pozyskiwaniu i ładowaniu danych z magazynu lakehouse.

Eksplorowanie, czyszczenie i przygotowywanie — środowisko nauki o danych w usłudze Fabric obsługuje czyszczenie danych, przekształcanie, eksplorację i cechowanie przy użyciu wbudowanych środowisk na platformie Spark, a także narzędzi opartych na języku Python, takich jak Data Wrangler i Biblioteka SemPy. W tym samouczku przedstawiono eksplorację danych przy użyciu biblioteki języka Python oraz czyszczenia i przygotowywania danych przy użyciu platformy seaborn Apache Spark.

Modele i eksperymenty — sieć szkieletowa umożliwia trenowanie, ocenianie i ocenianie modeli uczenia maszynowego przy użyciu wbudowanych elementów eksperymentów i modeli z bezproblemową integracją z platformą MLflow na potrzeby śledzenia eksperymentów i rejestracji/wdrażania modelu. Sieć szkieletowa udostępnia również funkcje przewidywania modelu na dużą skalę (PREDICT) w celu uzyskania i udostępniania szczegółowych informacji biznesowych.

Magazyn — sieć szkieletowa standandalizuje usługę Delta Lake, co oznacza, że wszystkie aparaty sieci Szkieletowej mogą wchodzić w interakcje z tym samym zestawem danych przechowywanym w usłudze Lakehouse. Ta warstwa magazynu umożliwia przechowywanie zarówno danych ze strukturą, jak i bez struktury, które obsługują zarówno magazyn oparty na plikach, jak i format tabelaryczny. Dostęp do zestawów danych i plików przechowywanych można łatwo uzyskać za pośrednictwem wszystkich elementów środowiska usługi Fabric, takich jak notesy i potoki.

Uwidaczniaj analizę i szczegółowe informacje — dane z usługi Lakehouse mogą być używane przez usługę Power BI, wiodące w branży narzędzie do analizy biznesowej na potrzeby raportowania i wizualizacji. Dane utrwalane w usłudze Lakehouse można również wizualizować w notesach przy użyciu natywnych bibliotek wizualizacji platformy Spark lub języka Python, takich jak matplotlib, , seabornplotlyi innych. Dane można również wizualizować przy użyciu biblioteki SemPy, która obsługuje wbudowane, szczegółowe wizualizacje dla semantycznego modelu danych, zależności i ich naruszeń oraz przypadków użycia klasyfikacji i regresji.

Następny krok