Jak funguje Správce orchestrace pracovních postupů služby Azure Data Factory?

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Poznámka:

Správce orchestrace pracovních postupů využívá Apache Airflow.

Poznámka:

Správce orchestrace pracovních postupů pro Azure Data Factory spoléhá na opensourcovou aplikaci Apache Airflow. Dokumentaci a další kurzy pro Airflow najdete na stránkách dokumentace nebo komunity Apache Airflow.

Správce orchestrace pracovních postupů ve službě Azure Data Factory používá ke spouštění pracovních postupů orchestrace řízené Acyklické grafy (DAG) založené na Pythonu. Pokud chcete tuto funkci použít, musíte ve službě Azure Blob Storage poskytnout své skupiny dagů a moduly plug-in. Uživatelské rozhraní Airflow můžete spustit z ADF pomocí rozhraní příkazového řádku (CLI) nebo sady SDK (Software Development Kit) pro správu daG.

Vytvoření prostředí Správce orchestrace pracovního postupu

Následující kroky nastaví a nakonfigurují prostředí Správce orchestrace pracovního postupu.

Požadavky

Předplatné Azure: Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete. Vytvořte nebo vyberte existující službu Data Factory v oblasti, ve které je podporována verze Preview Správce orchestrace pracovního postupu.

Postup vytvoření prostředí

  1. Vytvořte nové prostředí Správce orchestrace pracovních postupů. Přejděte na Spravovat centrum ->Airflow (Preview) ->+Nový a vytvořte nové prostředí Airflow.

    Snímek obrazovky, který ukazuje, jak vytvořit nové spravované prostředí Apache Airflow

  2. Zadejte podrobnosti (konfigurace Airflow)

    Snímek obrazovky s podrobnostmi o prostředí Správce orchestrace pracovního postupu

    Důležité

    Při použití základního ověřování si zapamatujte uživatelské jméno a heslo zadané na této obrazovce. Bude potřeba se přihlásit později v uživatelském rozhraní Správce orchestrace pracovního postupu. Výchozí možností je Microsoft Entra ID a nevyžaduje vytvoření uživatelského jména nebo hesla pro vaše prostředí Airflow, ale místo toho používá přihlašovací údaje přihlášeného uživatele k Azure Data Factory k přihlášení nebo monitorování DAG.

  3. Proměnné prostředí ukládají a načítají libovolný obsah nebo nastavení v rámci Airflow jednoduché úložiště klíč-hodnota.

  4. Požadavky je možné použít k předběžné instalaci knihoven Pythonu. Tyto aktualizace můžete aktualizovat i později.

Import dagů

Následující kroky popisují, jak importovat dagy do Správce orchestrace pracovního postupu.

Požadavky

Ukázkovou daG budete muset nahrát do přístupného účtu úložiště (měla by být ve složce dags).

Poznámka:

Blob Storage za virtuální sítí se během verze Preview nepodporuje.
Konfigurace služby KeyVault v úložištiLinkedServices se nepodporuje při importu dagů.

Ukázka Apache Airflow v2.x DAG Ukázka Apache Airflow v1.10 DAG.

Postup importu

  1. Zkopírujte obsah (v2.x nebo v1.10 na základě prostředí Airflow, které máte nastavené) do nového souboru volaný jako tutorial.py.

    Nahrajte tutorial.py do úložiště objektů blob. (Jak nahrát soubor do objektu blob)

    Poznámka:

    Abyste je mohli importovat do prostředí Airflow, budete muset vybrat cestu k adresáři z účtu úložiště objektů blob, který obsahuje složky s názvem dags a pluginy . Moduly plug-in nejsou povinné. Můžete také mít kontejner s názvem dags a nahrát do něj všechny soubory Airflow.

  2. V části Spravovat rozbočovač vyberte airflow (Preview). Pak najeďte myší na dříve vytvořené prostředí Airflow a výběrem možnosti Importovat soubory naimportujte všechny daG a závislosti do prostředí Airflow.

    Snímek obrazovky znázorňující import souborů ve správě centra

  3. Vytvořte novou propojenou službu pro přístupný účet úložiště uvedený v předpokladu (nebo použijte existující službu, pokud už máte vlastní skupiny DAG).

    Snímek obrazovky, který ukazuje, jak vytvořit novou propojenou službu

  4. Použijte účet úložiště, do kterého jste nahráli daG (zkontrolujte předpoklad). Otestujte připojení a pak vyberte Vytvořit.

    Snímek obrazovky ukazuje některé podrobnosti propojené služby.

  5. Pokud používáte ukázkovou adresu URL SAS, procházejte a vyberte složku, která obsahuje složku dags se soubory DAG.

    Poznámka:

    Pomocí tohoto rozhraní můžete importovat skupiny DAG a jejich závislosti. Abyste je mohli importovat do prostředí Airflow, budete muset vybrat cestu k adresáři z účtu úložiště objektů blob, který obsahuje složky s názvem dags a pluginy . Moduly plug-in nejsou povinné.

    Snímek obrazovky znázorňující procházení úložiště v souborech importu

    Snímek obrazovky znázorňující procházení v toku vzduchu

    Snímek obrazovky znázorňující import v souborech importu

    Snímek obrazovky znázorňující dagy importu

Poznámka:

Import dagů může během verze Preview trvat několik minut. Centrum oznámení (ikona zvonku v uživatelském rozhraní ADF) se dá použít ke sledování aktualizací stavu importu.

Řešení potíží s importem DAG

  • Problém: Zmírnění rizik importu DAG trvá více než 5 minut: Zmenšete velikost importovaných dag pomocí jednoho importu. Jedním ze způsobů, jak toho dosáhnout, je vytvoření více složek DAG s menšími skupinami DAG napříč několika kontejnery.

  • Problém: Importované DAG se nezobrazují, když se přihlásíte do uživatelského rozhraní Airflow. Zmírnění rizik: Přihlaste se do uživatelského rozhraní Airflow a zkontrolujte, jestli nedošlo k nějakým chybám analýzy DAG. K tomu může dojít v případě, že soubory DAG obsahují nekompatibilní kód. Přes uživatelské rozhraní Airflow najdete přesná čísla řádků a soubory, u kterých dochází k problému.

    Snímek obrazovky ukazuje problémy s importem dag.

Monitorování spuštění DAG

Pokud chcete monitorovat dagy Airflow, přihlaste se k uživatelskému rozhraní Airflow pomocí dříve vytvořeného uživatelského jména a hesla.

  1. Vyberte vytvořené prostředí Airflow.

    Snímek obrazovky znázorňující prostředí Airflow vytvořené

  2. Přihlaste se pomocí uživatelského jména a hesla zadaného při vytváření prostředí Airflow Integration Runtime. (Uživatelské jméno nebo heslo můžete resetovat úpravou prostředí Airflow Integration Runtime v případě potřeby)

    Snímek obrazovky znázorňující přihlášení pomocí uživatelského jména zadaného při vytváření prostředí Airflow Integration Runtime

Odebrání DAG z prostředí Airflow

Pokud používáte Airflow verze 1.x, odstraňte dagy nasazené v jakémkoli prostředí Airflow (IR), musíte odstranit DAG na dvou různých místech.

  1. Odstranění DAG z uživatelského rozhraní Airflow
  2. Odstranění dag v uživatelském rozhraní ADF

Poznámka:

Toto je aktuální prostředí ve verzi Public Preview a toto prostředí budeme vylepšovat.