Pozyskiwanie danych do magazynu przy użyciu potoków danych

Artykuł
04/24/2024

Dotyczy:✅ Magazyn w usłudze Microsoft Fabric

Potoki danych oferują alternatywę dla używania polecenia COPY za pomocą graficznego interfejsu użytkownika. Potok danych to logiczne grupowanie działań, które razem wykonują zadanie pozyskiwania danych. Potoki umożliwiają zarządzanie działaniami wyodrębniania, przekształcania i ładowania (ETL) zamiast zarządzania poszczególnymi operacjami.

W tym samouczku utworzysz nowy potok, który ładuje przykładowe dane do magazynu w usłudze Microsoft Fabric.

Uwaga

Niektóre funkcje usługi Azure Data Factory nie są dostępne w usłudze Microsoft Fabric, ale koncepcje są zamienne. Więcej informacji na temat usługi Azure Data Factory i potoków można uzyskać w temacie Pipelines and activities in Azure Data Factory and Azure Synapse Analytics (Potoki i działania w usługach Azure Data Factory i Azure Synapse Analytics). Aby zapoznać się z przewodnikiem Szybki start, odwiedź stronę Szybki start: tworzenie pierwszego potoku w celu skopiowania danych.

Tworzenie potoku danych

Aby utworzyć nowy potok, przejdź do obszaru roboczego, wybierz przycisk +Nowy i wybierz pozycję Potok danych.
W oknie dialogowym Nowy potok podaj nazwę nowego potoku i wybierz pozycję Utwórz.
W obszarze kanwy potoku zostaną wyświetlone trzy opcje rozpoczęcia: Dodawanie działania potoku, Kopiowanie danych i Wybieranie zadania do uruchomienia.

Każda z tych opcji oferuje różne alternatywy tworzenia potoku:
- Dodaj działanie potoku: ta opcja uruchamia edytor potoków, w którym można tworzyć nowe potoki od podstaw przy użyciu działań potoku.
- Kopiowanie danych: ta opcja uruchamia asystenta krok po kroku, który pomaga wybrać źródło danych, miejsce docelowe i skonfigurować opcje ładowania danych, takie jak mapowania kolumn. Po zakończeniu tworzy nowe działanie potoku z zadaniem kopiowania danych , które zostało już skonfigurowane.
- Wybierz zadanie do uruchomienia: ta opcja uruchamia zestaw wstępnie zdefiniowanych szablonów, aby ułatwić rozpoczęcie pracy z potokami w oparciu o różne scenariusze.
Wybierz opcję Kopiuj dane, aby uruchomić asystenta kopiowania.
Pierwsza strona asystenta kopiowania danych pomaga wybrać własne dane z różnych źródeł danych lub wybrać jedną z podanych przykładów, aby rozpocząć pracę. Na potrzeby tego samouczka użyjemy przykładu COVID-19 Data Lake . Wybierz tę opcję i wybierz przycisk Dalej.
Na następnej stronie możesz wybrać zestaw danych, format pliku źródłowego i wyświetlić podgląd wybranego zestawu danych. Wybierz pozycję Bing COVID-19, format CSV i wybierz przycisk Dalej.
Następna strona, Miejsca docelowe danych, umożliwia skonfigurowanie typu docelowego obszaru roboczego. Załadujemy dane do magazynu w naszym obszarze roboczym, więc wybierz kartę Magazyn i opcję Magazyn danych. Wybierz Dalej.
Teraz nadszedł czas, aby wybrać magazyn do załadowania danych. Wybierz żądany magazyn z listy rozwijanej i wybierz pozycję Dalej.
Ostatnim krokiem do skonfigurowania miejsca docelowego jest podanie nazwy tabeli docelowej i skonfigurowanie mapowań kolumn. W tym miejscu możesz załadować dane do nowej tabeli lub istniejącej, podać schemat i nazwy tabel, zmienić nazwy kolumn, usunąć kolumny lub zmienić ich mapowania. Możesz zaakceptować wartości domyślne lub dostosować ustawienia do swoich preferencji.

Po zakończeniu przeglądania opcji wybierz pozycję Dalej.
Następna strona udostępnia opcję użycia przemieszczania lub udostępnia zaawansowane opcje operacji kopiowania danych (która używa polecenia T-SQL COPY). Przejrzyj opcje bez ich zmiany i wybierz przycisk Dalej.
Ostatnia strona asystenta zawiera podsumowanie działania kopiowania. Wybierz opcję Rozpocznij transfer danych natychmiast , a następnie wybierz pozycję Zapisz i uruchom.
Zostanie przekierowany do obszaru kanwy potoku, w którym skonfigurowano już nowe działanie Kopiowania danych. Potok zostanie uruchomiony automatycznie. Stan potoku można monitorować w okienku Dane wyjściowe :
Po kilku sekundach potok zakończy się pomyślnie. Po powrocie do magazynu możesz wybrać tabelę, aby wyświetlić podgląd danych i potwierdzić zakończenie operacji kopiowania.