Co jsou sady prostředků Databricks?
Sady prostředků Databricks (DAB) jsou nástroj, který usnadňuje přijetí osvědčených postupů pro softwarové inženýrství, včetně správy zdrojového kódu, kontroly kódu, testování a průběžné integrace a průběžné integrace (CI/CD) pro vaše data a projekty AI. Balíčky umožňují popsat prostředky Databricks, jako jsou úlohy, kanály a poznámkové bloky jako zdrojové soubory. Tyto zdrojové soubory poskytují ucelenou definici projektu, včetně toho, jak by měla být strukturovaná, testovaná a nasazená, což usnadňuje spolupráci na projektech během aktivního vývoje.
Sady prostředků poskytují způsob, jak zahrnout metadata spolu se zdrojovými soubory projektu. Při nasazování projektu pomocí sad prostředků se tato metadata používají ke zřízení infrastruktury a dalších prostředků. Kolekce zdrojových souborů a metadat vašeho projektu se pak nasadí jako jedna sada do cílového prostředí. Sada obsahuje následující části:
- Požadovaná cloudová infrastruktura a konfigurace pracovních prostorů
- Zdrojové soubory, jako jsou poznámkové bloky a soubory Pythonu, které zahrnují obchodní logiku
- Definice a nastavení pro prostředky Databricks, jako jsou úlohy Azure Databricks, kanály Delta Live Tables, koncové body obsluhy modelů, experimenty MLflow a registrované modely MLflow
- Testy jednotek a integrační testy
Následující diagram poskytuje základní pohled na vývojový kanál a kanál CI/CD se sadami:
Kdy mám používat sady prostředků Databricks?
Sady prostředků Databricks představují přístup infrastruktury jako kódu (IaC) ke správě projektů Databricks. Používejte je, když chcete spravovat složité projekty, ve kterých je nezbytné více přispěvatelů a automatizace, a průběžná integrace a nasazování (CI/CD) jsou požadavkem. Vzhledem k tomu, že sady jsou definované a spravované prostřednictvím šablon YAML a souborů, které vytváříte a udržujete společně se zdrojovým kódem, mapují se dobře na scénáře, kde je vhodný přístup IaC.
Mezi ideální scénáře pro balíčky patří:
- Vývoj dat, analýz a projektů ML v týmovém prostředí Balíčky vám můžou pomoct efektivně uspořádat a spravovat různé zdrojové soubory. To zajišťuje bezproblémovou spolupráci a zjednodušené procesy.
- Iterace problémů ml rychleji. Spravujte prostředky kanálu ML (například trénování a dávkové odvozování) pomocí projektů ML, které od začátku dodržují osvědčené postupy v produkčním prostředí.
- Nastavte standardy organizace pro nové projekty vytvořením vlastních šablon sad, které zahrnují výchozí oprávnění, instanční objekty a konfigurace CI/CD.
- Dodržováníprávníchch předpisů: V odvětvích, kde je dodržování právních předpisů významné, můžou sady prostředků pomoci udržovat historii verzí kódu a infrastruktury. To pomáhá v zásadách správného řízení a zajišťuje splnění nezbytných standardů dodržování předpisů.
Jak fungují sady prostředků Databricks?
Metadata sady jsou definována pomocí souborů YAML, které určují artefakty, prostředky a konfiguraci projektu Databricks. Tento soubor YAML můžete vytvořit ručně nebo ho vygenerovat pomocí šablony sady. Rozhraní příkazového řádku Databricks se pak dá použít k ověření, nasazení a spuštění sad pomocí těchto souborů YAML sady. Projekty sady můžete spouštět přímo z prostředí IDE, terminálů nebo přímo v Databricks. Tento článek používá rozhraní příkazového řádku Databricks.
Sady je možné vytvořit ručně nebo na základě šablony. Rozhraní příkazového řádku Databricks poskytuje výchozí šablony pro jednoduché případy použití, ale pro konkrétnější nebo složitější úlohy můžete vytvořit vlastní šablony sad, které implementují osvědčené postupy vašeho týmu a udržují společné konfigurace konzistentní.
Další podrobnosti o konfiguraci YAML používané k vyjádření sad prostředků Databricks najdete v tématu Konfigurace sady prostředků Databricks.
Konfigurace prostředí tak, aby používalo sady prostředků
Pomocí rozhraní příkazového řádku Databricks můžete snadno nasadit sady prostředků z příkazového řádku. Pokud chcete nainstalovat rozhraní příkazového řádku Databricks, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
Sady prostředků Databricks jsou k dispozici v Databricks CLI verze 0.218.0 nebo vyšší. Pokud chcete zjistit verzi nainstalovaného rozhraní příkazového řádku Databricks, spusťte následující příkaz:
databricks --version
Po instalaci rozhraní příkazového řádku Databricks ověřte, že jsou vaše vzdálené pracovní prostory Databricks správně nakonfigurované. Sady prostředků vyžadují, aby byla povolená funkce souborů pracovního prostoru, protože tato funkce podporuje práci s jinými soubory než s poznámkovými bloky Databricks, jako .py
jsou soubory a .yml
soubory. Pokud používáte Databricks Runtime verze 11.3 LTS nebo vyšší, je tato funkce ve výchozím nastavení povolená.
Ověřování
Azure Databricks poskytuje několik metod ověřování:
- Pro scénáře ověřování, jako jsou ruční pracovní postupy, ve kterých se pomocí webového prohlížeče přihlašujete k cílovému pracovnímu prostoru Azure Databricks (po zobrazení výzvy rozhraní příkazového řádku Databricks) použijte ověřování uživatelem AAuth (U2M). Tato metoda je ideální pro experimentování s úvodními kurzy pro sady prostředků Databricks nebo pro rychlý vývoj sad.
- Pro scénáře bezobslužného ověřování, jako jsou plně automatizované pracovní postupy, ve kterých není možné použít webový prohlížeč k přihlášení k cílovému pracovnímu prostoru Azure Databricks, použijte ověřování OAuth typu machine-to-machine (M2M). Tato metoda vyžaduje použití instančních objektů Azure Databricks a je ideální pro použití sad prostředků Databricks se systémy CI/CD, jako je GitHub.
Pro ověřování U2M OAuth postupujte takto:
Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.
V následujícím příkazu nahraďte
<workspace-url>
adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, napříkladhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --host <workspace-url>
Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy
Enter
potvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.Pokud chcete získat seznam všech existujících profilů, v samostatném terminálu nebo příkazovém řádku spusťte příkaz
databricks auth profiles
pomocí rozhraní příkazového řádku Databricks . Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkazdatabricks auth env --profile <profile-name>
.Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.
Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Pokud máte více profilů se stejnou
--host
hodnotou, možná budete muset zadat--host
společně možnosti a-p
pomoct rozhraní příkazového řádku Databricks najít správné odpovídající informace o tokenu OAuth.
Název tohoto konfiguračního profilu můžete použít jedním nebo několika z následujících způsobů, kdykoli ověříte, nasadíte, spustíte nebo zničíte balíčky:
- S možností
-p <profile-name>
příkazového řádku , připojenými k příkazůmdatabricks bundle validate
,databricks bundle deploy
, ,databricks bundle run
nebodatabricks bundle destroy
. Podívejte se na vývoj sad prostředků Databricks. - Jako hodnota mapování v mapování konfiguračního
profile
souboru sady nejvyšší úrovněworkspace
(ačkoli Databricks doporučuje použíthost
mapování nastavené na adresu URL pracovního prostoru Azure Databricks místoprofile
mapování, protože to zpřístupňuje konfigurační soubory sady). Podívejte se naprofile
pokrytí mapování v pracovním prostoru. - Pokud je
DEFAULT
název konfiguračního profilu , použije se ve výchozím nastavení, pokud není zadáno mapování-p <profile-name>
příkazového řádku neboprofile
mapování (nebohost
).
Pro ověřování OAuth M2M postupujte takto:
Dokončete pokyny k nastavení ověřování OAuth M2M. Viz Ověření přístupu k Azure Databricks pomocí instančního objektu pomocí OAuth (OAuth M2M).
Nainstalujte rozhraní příkazového řádku Databricks na cílový výpočetní prostředek jedním z následujících způsobů:
- Pokud chcete rozhraní příkazového řádku Databricks nainstalovat do výpočetního prostředku v reálném čase ručně, přečtěte si téma Instalace nebo aktualizace rozhraní příkazového řádku Databricks.
- Pokud chcete použít GitHub Actions k automatické instalaci Rozhraní příkazového řádku Databricks na virtuálním počítači GitHubu, přečtěte si téma setup-cli na GitHubu.
- Pokud chcete k automatické instalaci Rozhraní příkazového řádku Databricks na virtuální počítač použít jiné systémy CI/CD, přečtěte si dokumentaci poskytovatele systému CI/CD a nainstalujte nebo aktualizujte rozhraní příkazového řádku Databricks.
Na výpočetním prostředku nastavte následující proměnné prostředí následujícím způsobem:
DATABRICKS_HOST
, nastavte na adresu URL Azure Databricks pro jednotlivé pracovní prostory, napříkladhttps://adb-1234567890123456.7.azuredatabricks.net
.DATABRICKS_CLIENT_ID
, nastavte na hodnotu ID aplikace instančního objektu Azure Databricks.DATABRICKS_CLIENT_SECRET
, nastavte na hodnotu tajného klíče OAuth instančního objektu Azure Databricks.
Pokud chcete nastavit tyto proměnné prostředí, přečtěte si dokumentaci k operačnímu systému cílového výpočetního prostředku nebo systému CI/CD.
Vývoj první sady prostředků Databricks
Nejrychlejší způsob, jak začít s vývojem sady, je použití šablony projektu sady. Vytvořte svůj první projekt sady s využitím příkazu inicializačního inicializačního balíčku rozhraní příkazového řádku Databricks. Tento příkaz představuje výběr výchozích šablon sady dat, které jsou poskytované službou Databricks, a klade řadu otázek k inicializaci proměnných projektu.
databricks bundle init
Vytvoření sady je prvním krokem v životním cyklu sady. Druhým krokem je vývoj sady prostředků, což je klíčový prvek, který definuje nastavení sady a prostředky v konfiguračních databricks.yml
souborech prostředků. Informace o konfiguraci sady prostředků najdete v tématu Konfigurace sady prostředků Databricks.
Tip
Příklady konfigurace sady najdete v příkladech konfigurace sady a v úložišti Příklady balíčků na GitHubu.
Další kroky
- Vytvořte sadu, která nasadí poznámkový blok do pracovního prostoru Azure Databricks a pak spustí tento nasazený poznámkový blok jako úlohu Azure Databricks. Viz Vývoj úlohy v Azure Databricks pomocí sad prostředků Databricks.
- Vytvořte sadu, která nasadí poznámkový blok do pracovního prostoru Azure Databricks a potom spustí tento nasazený poznámkový blok jako kanál Delta Live Tables. Viz Vývoj kanálů Delta Live Tables s využitím sad prostředků Databricks.
- Vytvořte sadu, která nasadí a spustí sadu MLOps Stack. Viz Sady prostředků Databricks pro zásobníky MLOps.
- Přidejte sadu do pracovního postupu CI/CD (kontinuální integrace nebo průběžné nasazování) na GitHubu. Viz Spuštění pracovního postupu CI/CD se sadou prostředků Databricks a GitHub Actions.
- Vytvořte sadu, která sestaví, nasadí a zavolá soubor kola Pythonu. Viz Vývoj souboru kola Pythonu pomocí sad prostředků Databricks.
- Vytvořte vlastní šablonu, kterou můžete vy i ostatní použít k vytvoření sady. Vlastní šablona může zahrnovat výchozí oprávnění, instanční objekty a vlastní konfiguraci CI/CD. Viz šablony projektů Sady prostředků Databricks.
- Migrace z dbx do sad prostředků Databricks Viz Migrace z dbx do sad.
- Seznamte se s nejnovějšími hlavními novými funkcemi vydanými pro sady prostředků Databricks. Viz poznámky k verzi sady prostředků Databricks.