Konfigurace kanálu Delta Live Tables

Tento článek popisuje základní konfiguraci kanálů Delta Live Tables pomocí uživatelského rozhraní pracovního prostoru.

Databricks doporučuje vyvíjet nové kanály pomocí bezserverové architektury. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu Delta Live Tables.

Pokyny ke konfiguraci v tomto článku používají Katalog Unity. Pokyny ke konfiguraci kanálů se starší verzí metastoru Hive najdete v tématu Použití kanálů Delta Live Tables se starším metastorem Hive.

Poznámka:

Uživatelské rozhraní má možnost zobrazit a upravit nastavení ve formátu JSON. Většinu nastavení můžete nakonfigurovat pomocí uživatelského rozhraní nebo specifikace JSON. Některé pokročilé možnosti jsou k dispozici pouze pomocí konfigurace JSON.

Konfigurační soubory JSON jsou také užitečné při nasazování kanálů do nových prostředí nebo pomocí rozhraní příkazového řádku nebo rozhraní REST API.

Úplný odkaz na nastavení konfigurace JSON delta live tables najdete v tématu Konfigurace kanálu Delta Live Tables.

Konfigurace nového kanálu Delta Live Tables

Pokud chcete nakonfigurovat nový kanál Delta Live Tables, postupujte takto:

  1. Na bočním panelu klikněte na Rozdílové živé tabulky .
  2. Klikněte na Vytvořit kanál.
  3. Zadejte jedinečný název kanálu.
  4. Ikona výběru souboru Pomocí nástroje pro výběr souborů můžete nakonfigurovat poznámkové bloky a soubory pracovního prostoru jako zdrojový kód.
    • Musíte přidat aspoň jeden prostředek zdrojového kódu.
    • Pomocí tlačítka Přidat zdrojový kód přidejte další prostředky zdrojového kódu.
  5. Vyberte katalog, který chcete publikovat data.
  6. Vyberte schéma v katalogu. V tomto schématu se vytvoří všechny streamované tabulky a materializovaná zobrazení definovaná v kanálu.
  7. V části Výpočty zaškrtněte políčko vedle možnosti Použít akceleraci photon. Další aspekty konfigurace výpočetních prostředků najdete v tématu Možnosti konfigurace výpočetních prostředků.
  8. Klikněte na Vytvořit.

Tyto doporučené konfigurace vytvoří nový kanál nakonfigurovaný tak, aby běžel v režimu triggeru a používal aktuální kanál. Tato konfigurace se doporučuje pro mnoho případů použití, včetně vývoje a testování, a je vhodná pro produkční úlohy, které by se měly spouštět podle plánu. Podrobnosti o plánování kanálů najdete v tématu Úloha kanálu Delta Live Tables pro úlohy.

Možnosti konfigurace výpočetních prostředků

Databricks doporučuje vždy používat rozšířené automatické škálování. Výchozí hodnoty pro jiné konfigurace výpočetních prostředků fungují dobře pro mnoho kanálů.

Bezserverové kanály odeberou možnosti konfigurace výpočetních prostředků. Pokyny ke konfiguraci pro bezserverové kanály najdete v tématu Konfigurace bezserverového kanálu Delta Live Tables.

K přizpůsobení konfigurací výpočetních prostředků použijte následující nastavení:

  • Správci pracovního prostoru můžou nakonfigurovat zásady clusteru. Zásady výpočetních prostředků umožňují správcům řídit, jaké výpočetní možnosti jsou uživatelům k dispozici. Viz Výběr zásad clusteru.

  • Volitelně můžete nakonfigurovat režim clusteru tak, aby běžel s pevnou velikostí nebo starším automatickým škálováním. Viz Optimalizace využití clusteru kanálů Delta Live Tables s vylepšeným automatickým škálováním.

  • U úloh s povoleným automatickým škálováním nastavte minimální pracovní procesy a maximální počet pracovních procesů tak, aby nastavily limity pro chování škálování. Viz Konfigurace výpočetních prostředků pro kanál Delta Live Tables.

  • Volitelně můžete vypnout akceleraci Photon. Podívejte se, co je Photon?

  • Pomocí značek clusteru můžete monitorovat náklady spojené s kanály Delta Live Tables. Viz Konfigurace značek clusteru.

  • Nakonfigurujte typy instancí tak, aby určily typ virtuálních počítačů, které se používají ke spuštění kanálu. Viz Výběr typů instancí pro spuštění kanálu.

    • Vyberte typ pracovního procesu optimalizovaný pro úlohy nakonfigurované ve vašem kanálu.
    • Volitelně můžete vybrat typ ovladače, který se liší od typu pracovního procesu. To může být užitečné pro snížení nákladů v kanálech s velkými typy pracovních procesů a nízkým využitím výpočetních prostředků ovladačů nebo pro volbu většího typu ovladače, aby nedocházelo k problémům s nedostatkem paměti v úlohách s mnoha malými pracovními procesy.

Další aspekty konfigurace

Pro kanály jsou k dispozici také následující možnosti konfigurace:

  • Edice produktu Advanced poskytuje přístup ke všem funkcím Delta Live Tables. Kanály můžete volitelně spouštět pomocí edicí produktů Pro nebo Core . Viz Volba edice produktu.
  • Při spouštění kanálů v produkčním prostředí můžete použít režim průběžného kanálu. Viz Triggered vs. continuous pipeline mode.
  • Pokud váš pracovní prostor není nakonfigurovaný pro katalog Unity nebo vaše úloha potřebuje používat starší metastore Hive, přečtěte si téma Použití kanálů Delta Live Tables se starším metastorem Hive.
  • Přidání oznámení pro aktualizace e-mailu na základě podmínek úspěchu nebo selhání Viz Přidání e-mailových oznámení pro události kanálu.
  • Pomocí pole Konfigurace nastavte páry klíč-hodnota pro kanál. Tyto konfigurace slouží ke dvěma účelům:
  • Pomocí kanálu Preview otestujte kanál proti čekající změnám modulu runtime Delta Live Tables a zkušebním novým funkcím.

Volba edice produktu

Vyberte produktovou edici Delta Live Tables s nejlepšími funkcemi pro vaše požadavky na kanál. K dispozici jsou následující edice produktů:

  • Core ke spouštění úloh ingestování streamování. Core Tuto edici vyberte, pokud kanál nevyžaduje pokročilé funkce, jako je záznam dat změn (CDC) nebo očekávané rozdílové živé tabulky.
  • Pro ke spouštění úloh ingestování streamování a CDC. Edice Pro produktu podporuje všechny Core funkce a podporu pro úlohy, které vyžadují aktualizaci tabulek na základě změn ve zdrojových datech.
  • Advanced ke spouštění úloh ingestování streamování, úloh CDC a úloh, které vyžadují očekávání. Produktová Advanced edice podporuje funkce Core a Pro edice a zahrnuje omezení kvality dat s očekáváními Delta Live Tables.

Edici produktu můžete vybrat při vytváření nebo úpravě kanálu. Pro každý kanál můžete zvolit jinou edici. Podívejte se na stránku produktu Delta Live Tables.

Poznámka: Pokud kanál obsahuje funkce, které vybraná edice produktu nepodporuje, například očekávání, zobrazí se chybová zpráva s vysvětlením důvodu chyby. Kanál pak můžete upravit a vybrat příslušnou edici.

Konfigurace zdrojového kódu

Pomocí selektoru souborů v uživatelském rozhraní Delta Live Tables můžete nakonfigurovat zdrojový kód definující váš kanál. Zdrojový kód kanálu je definovaný v poznámkových blocích Databricks nebo skriptech SQL nebo Pythonu uložených v souborech pracovního prostoru. Při vytváření nebo úpravě kanálu můžete přidat jeden nebo více poznámkových bloků nebo souborů pracovního prostoru nebo kombinaci poznámkových bloků a souborů pracovního prostoru.

Vzhledem k tomu, že Delta Live Tables automaticky analyzuje závislosti datových sad za účelem vytvoření grafu zpracování pro váš kanál, můžete přidat prostředky zdrojového kódu v libovolném pořadí.

Soubor JSON můžete upravit tak, aby zahrnoval zdrojový kód Delta Live Tables definovaný ve skriptech SQL a Pythonu uložených v souborech pracovního prostoru. Následující příklad obsahuje poznámkové bloky a soubory pracovního prostoru:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Správa externích závislostí pro kanály, které používají Python

Rozdílové živé tabulky podporují používání externích závislostí v kanálech, jako jsou balíčky a knihovny Pythonu. Další informace o možnostech a doporučeních pro používání závislostí najdete v tématu Správa závislostí Pythonu pro kanály Delta Live Tables.

Použití modulů Pythonu uložených v pracovním prostoru Azure Databricks

Kromě implementace kódu Pythonu v poznámkových blocích Databricks můžete použít složky Gitu nebo soubory pracovního prostoru Databricks k uložení kódu jako modulů Pythonu. Ukládání kódu jako modulů Pythonu je užitečné hlavně v případech, kdy máte společné funkce, které chcete použít v několika kanálech nebo poznámkových blocích ve stejném kanálu. Informace o používání modulů Pythonu s vašimi kanály najdete v tématu Import modulů Pythonu ze složek Gitu nebo souborů pracovních prostorů.