Nastavení složek Gitu pro Databricks (Úložiště)
Zjistěte, jak nastavit složky Gitu Databricks (dříve Repos) pro správu verzí. Po nastavení složek Gitu ve službě Databricks můžete provádět běžné operace Gitu, jako jsou klonování, rezervace, potvrzení, vložení, vyžádání a správa větví, z uživatelského rozhraní Databricks. Při vývoji s využitím poznámkových bloků a souborů v Databricks také můžete zobrazit rozdíly ve změnách.
Konfigurace uživatelských nastavení
Složky Gitu Databricks používají token PAT (Personal Access Token) nebo ekvivalentní přihlašovací údaje k ověření u vašeho poskytovatele Gitu k provádění operací, jako jsou klonování, nabízení, vyžádání atd. Pokud chcete používat složky Git, musíte nejprve přidat uživatelské jméno zprostředkovatele Git PAT a Git do Databricks. Viz Konfigurace přihlašovacích údajů Gitu a připojení vzdáleného úložiště k Azure Databricks.
Veřejná vzdálená úložiště můžete klonovat bez přihlašovacích údajů Gitu (osobní přístupový token a uživatelské jméno). Pokud chcete upravit veřejné vzdálené úložiště nebo naklonovat nebo upravit privátní vzdálené úložiště, musíte mít uživatelské jméno poskytovatele Gitu a PAT s oprávněními pro zápis (nebo vyšší) pro vzdálené úložiště.
Složky Gitu jsou ve výchozím nastavení povolené. Další podrobnosti o povolení nebo zakázání podpory složek Git najdete v tématu Povolení nebo zakázání funkce složky Git Databricks.
Přidání nebo úprava přihlašovacích údajů Gitu v Databricks
Důležité
Složky Gitu Databricks podporují jenom jeden přihlašovací údaje Gitu pro jednotlivé uživatele a pracovní prostor.
Vyberte šipku dolů vedle názvu účtu v pravém horním rohu obrazovky a pak vyberte Nastavení.
Vyberte kartu Propojené účty.
Pokud přihlašovací údaje přidáváte poprvé, postupujte podle pokynů na obrazovce.
Pokud jste dříve zadali přihlašovací údaje, klikněte na Tlačítko Upravit konfiguraci>a přejděte k dalšímu kroku.
V rozevíracím seznamu poskytovatelů Gitu vyberte název poskytovatele.
Zadejte svoje uživatelské jméno nebo e-mail Gitu.
Do pole Token přidejte osobní přístupový token (PAT) nebo jiné přihlašovací údaje od poskytovatele Gitu. Podrobnosti najdete v tématu Konfigurace přihlašovacích údajů Gitu a připojení vzdáleného úložiště k Azure Databricks.
Důležité
Databricks doporučuje nastavit datum vypršení platnosti pro všechny tokeny patového přístupu.
Pokud pro Azure DevOps nezadáte token nebo heslo aplikace, integrace Git ve výchozím nastavení použije váš token Microsoft Entra ID. Pokud zadáte osobní přístupový token Azure DevOps, integrace Git ho místo toho použije. Viz Připojení k úložišti Azure DevOps pomocí tokenu.
Poznámka:
Po aktualizaci hesla Azure se znovu ověřte pomocí Azure Databricks, pokud potřebujete nové ověřování, aby fungovalo hned. Pokud se znovu neověříte, připojení Azure DevOps se nemusí ověřit až na 24 hodin.
Pokud má vaše organizace povolené jednotné přihlašování SAML na GitHubu, povolte váš osobní přístupový token pro jednotné přihlašování.
Do pole uživatelského jména zprostředkovatele Gitu zadejte svoje uživatelské jméno.
Klikněte na Uložit.
Token PAT Gitu a uživatelské jméno můžete také uložit do Azure Databricks pomocí rozhraní API Databricks Repos.
Pokud nemůžete naklonovat úložiště a používáte Azure DevOps s ověřováním Microsoft Entra ID, přečtěte si téma Problém se zásadami podmíněného přístupu (CAP) pro ID Microsoft Entra.
Síťové připojení mezi složkami Git Databricks a poskytovatelem Gitu
Složky Gitu potřebují síťové připojení k vašemu poskytovateli Gitu, aby fungovaly. Obvykle je to přes internet a funguje mimo krabici. Možná jste ale pro svého poskytovatele Gitu nastavili další omezení pro řízení přístupu. Můžete mít například zavedený seznam povolených IP adres nebo můžete hostovat vlastní místní server Git pomocí služeb, jako je GitHub Enterprise (GHE), Bitbucket Server (BBS) nebo Gitlab Self-managed. V závislosti na hostování a konfiguraci sítě nemusí být váš server Git přístupný přes internet.
Poznámka:
- Pokud je váš server Git přístupný z internetu, ale má zavedený seznam povolených IP adres, jako jsou seznamy povolených na GitHubu, musíte přidat IP adresy NAT řídicí roviny Azure Databricks do seznamu povolených IP adres serveru Git. Seznam IP adres NAT řídicí roviny podle oblastí najdete v oblastech Azure Databricks. Použijte IP adresu pro oblast, ve které je váš pracovní prostor Azure Databricks.
- Pokud soukromě hostujete server Git, přečtěte si článek Nastavení privátního připojení Gitu pro složky Git Azure Databricks (Repos) nebo se obraťte na tým účtu Azure Databricks a požádejte ho o pokyny pro onboarding.
Funkce zabezpečení ve složkách Gitu
Složky Gitu Databricks mají mnoho funkcí zabezpečení. Následující části vás provedou nastavením a použitím:
- Použití šifrovaných přihlašovacích údajů Gitu
- Seznam povolených
- Řízení přístupu k pracovním prostorům
- Protokolování auditu
- Detekce tajných kódů
Používání vlastního klíče: Šifrování přihlašovacích údajů Gitu
Azure Key Vault můžete použít k šifrování tokenu PAT (Personal Access Token) Gitu nebo jiných přihlašovacích údajů Gitu. Použití klíče z šifrovací služby se označuje jako klíč spravovaný zákazníkem (CMK) nebo používání vlastního klíče (BYOK).
Další informace najdete v tématu Klíče spravované zákazníkem pro šifrování.
Omezení využití na adresy URL v seznamu povolených
Pokud k ověřování v Azure DevOps použijete ID Microsoft Entra, výchozí seznam povolených adres URL gitu omezuje na:
- dev.azure.com
- visualstudio.com
V případě AAD s vlastními aliasy CNAMES nebo adresy URL Gitu může správce pracovního prostoru nakonfigurovat vlastní seznam povolených, jak je znázorněno v následujících krocích. Pokud používáte vlastní seznam povolených, musí správce pracovního prostoru přidat tyto adresy URL, pokud s nimi chcete pracovat: dev.azure.com
a visualstudio.com
.
Správce pracovního prostoru může omezit, která vzdálená úložiště můžou uživatelé klonovat a potvrdit a odeslat. To pomáhá zabránit exfiltraci vašeho kódu; Uživatelé například nemohou odeslat kód do libovolného úložiště, pokud jste zapnuli omezení seznamu povolených. Uživatelům můžete také zabránit v používání nelicencovaného kódu tím, že omezíte operaci klonování na seznam povolených úložišť.
Nastavení seznamu povolených položek:
Přejděte na stránku nastavení.
Klikněte na kartu správce pracovního prostoru (ve výchozím nastavení je otevřená).
V části Vývoj zvolte možnost z oprávnění seznamu povolených adres URL Gitu:
- Zakázáno (bez omezení):: Seznam povolených položek neobsahuje žádné kontroly.
- Omezit operace Clone, Commit &Push do povolených úložišť Git: Operace klonování, potvrzení a nabízení jsou povolené jenom pro adresy URL úložiště v seznamu povolených.
- Omezit pouze potvrzení a vložení do povolených úložišť Git: Operace potvrzení a zápisu jsou povolené jenom pro adresy URL úložiště v seznamu povolených. Operace klonování a přijetí změn nejsou omezeny.
Klikněte na tlačítko Upravit vedle seznamu povolených adres URL Gitu: Prázdný seznam a zadejte čárkami oddělený seznam předpon adres URL.
Klikněte na možnost Uložit.
Poznámka:
- Seznam, který uložíte, přepíše existující sadu uložených předpon URL.
- Než se změny projeví, může to trvat až 15 minut.
Povolit přístup ke všem úložištím
Zakázání existujícího seznamu povolených položek a povolení přístupu ke všem úložištím:
- Přejděte na stránku nastavení.
- Klikněte na kartu správce pracovního prostoru.
- V části Vývoj v části Povolený seznam povolených adres URL Gitu vyberte Zakázat (bez omezení).
Řízení přístupu k úložišti ve vašem pracovním prostoru
Poznámka:
Řízení přístupu je dostupné jenom v plánu Premium.
Nastavte oprávnění pro úložiště pro řízení přístupu. Oprávnění pro úložiště platí pro veškerý obsah v daném úložišti. K souborům můžete přiřadit pět úrovní oprávnění: ŽÁDNÁ OPRÁVNĚNÍ, MŮŽE ČÍST, MŮŽE SPOUŠTĚT, MŮŽE UPRAVOVAT a SPRAVOVAT.
Další podrobnosti o oprávněních ke složce Git najdete v seznamech ACL složek Gitu.
(Volitelné) Nastavení proxy serveru pro podnikové servery Git
Pokud vaše společnost používá místní podnikovou službu Git, jako je GitHub Enterprise nebo Azure DevOps Server, můžete k připojení pracovních prostorů Databricks k úložišti, která slouží, použít proxy serveru Databricks.
Protokolování auditu
Pokud je protokolování auditu povolené, události auditu se protokolují při interakci se složkou Git. Například při vytváření, aktualizaci nebo odstranění složky Git se zaznamená událost auditu, když vypíšete všechny složky Git přidružené k pracovnímu prostoru a když synchronizujete změny mezi složkou Gitu a vzdáleným úložištěm Git.
Detekce tajných kódů
Složky Gitu kontrolují kód ID přístupových klíčů, které začínají předponou AKIA
, a před potvrzením uživatele upozorní.
Použití konfiguračního souboru úložiště
Nastavení pro každý poznámkový blok můžete přidat do úložiště v .databricks/commit_outputs
souboru, který vytvoříte ručně.
Zadejte poznámkový blok, který chcete zahrnout výstupy pomocí vzorů podobných vzorům gitignore.
Vzory konfiguračního souboru úložiště
Soubor obsahuje pozitivní a záporné vzory cesty k souboru. Vzory cest k souborům zahrnují příponu souboru poznámkového bloku, například .ipynb
.
- Pozitivní vzory umožňují zahrnutí výstupů pro odpovídající poznámkové bloky.
- Negativní vzory zakazují zahrnutí výstupů pro odpovídající poznámkové bloky.
Vzory se vyhodnocují v pořadí pro všechny poznámkové bloky. Neplatné cesty nebo cesty, které se nepřekládají na .ipynb
poznámkové bloky, se ignorují.
Pokud chcete zahrnout výstupy z cesty folder/innerfolder/notebook.ipynb
poznámkového bloku, použijte následující vzory:
**/*
folder/**
folder/innerfolder/note*
Pokud chcete vyloučit výstupy poznámkového bloku, zkontrolujte, jestli se žádný z pozitivních vzorů neshoduje nebo nepřidá negativní vzor ve správném místě konfiguračního souboru. Negativní vzory (vyloučení) začínají na !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Přesunutí složky Git do koše (odstranění)
Odstranění složky Git z pracovního prostoru:
Klikněte pravým tlačítkem na složku Git a pak vyberte Přesunout do koše.
V dialogovém okně zadejte název složky Git, kterou chcete odstranit. Potom klikněte na Potvrdit a přesunout do koše.