設定 Databricks Git 資料夾 (Repos)

了解如何為版本控制設定 Databricks Git 資料夾 (前身為 Repos)。 在 Databricks 設定 Git 資料夾之後,您可以從 Databricks UI 執行常見的 Git 作業,例如複製、簽出、提交、推送、接收和分支管理。 當您使用 Databricks 中的筆記本和檔案進行開發時,您也可以看到所做變更的差異。

設定使用者設定

Databricks Git 資料夾使用個人存取權杖 (PAT) 或對等認證向 Git 供應商進行驗證,以執行複製、推送、接收等作業。若要使用 Git 資料夾,您必須先將 Git PAT 和 Git 供應商使用者名稱新增至 Databricks。 請參閱設定 Git 認證以及將遠端存放庫連線到 Azure Databricks

您可以複製沒有 Git 認證 (個人存取權杖和使用者名稱) 的公用遠端存放庫。 若要修改公用遠端存放庫,或複製或修改私人遠端存放庫,您必須擁有具備遠端存放庫寫入 (或更高) 權限的 Git 供應商使用者名稱和 PAT。

預設會啟用 Git 資料夾。 如需啟用或停用 Git 資料夾支援的詳細資訊,請參閱啟用或停用 Databricks Git 資料夾功能

在 Databricks 新增或編輯 Git 認證

重要

Databricks Git 資料夾僅支援一個使用者、一個工作區使用一個 Git 認證。

  1. 選取畫面右上方帳戶名稱旁邊的向下箭號,然後選取 [設定]。

  2. 選取 [連結帳戶] 索引標籤

  3. 如果您是第一次新增認證,請按照畫面上的指示。

    如果您先前已輸入認證,請按下 [設定]>[編輯],然後移至下一個步驟。

  4. 在 Git 提供者 下拉清單中,選擇提供者名稱。

  5. 輸入 Git 使用者名稱或電子郵件。

  6. 在 [權杖] 欄位中,新增來自 Git 供應商的個人存取權杖 (PAT) 或其他認證。 如需詳細資料,請參閱設定 Git 認證以及將遠端存放庫連線到 Azure Databricks

    重要

    Databricks 建議您為所有個人存取權杖設定期間屆滿日。

    針對 Azure DevOps,如果您未輸入權杖或應用程式密碼,Git 整合預設會使用Microsoft Entra ID 權杖。 如果您輸入 Azure DevOps 個人存取權杖,Git 整合會改用它。 請參閱使用權杖連線到 Azure DevOps 存放庫

    注意

    更新 Azure 密碼之後,如果需要新的驗證立即運作,請使用 Azure Databricks 重新驗證。 如果您未重新驗證,Azure DevOps 連線可能有長達 24 小時的時間未驗證。

    如果組織已在 GitHub 啟用 SAML SSO,請為 SSO 授權個人存取權杖

  7. 在 [Git 供應商使用者名稱] 欄位輸入使用者名稱。

  8. 按一下 [檔案] 。

您也可以使用 Databricks Repos API,將 Git PAT 權杖和使用者名稱儲存至 Azure Databricks。

如果您無法複製存放庫,且透過 Microsoft Entra ID 驗證使用 Azure DevOps,請參閱 Microsoft Entra ID 的條件式存取原則 (CAP) 問題

Databricks Git 資料夾與 Git 供應商之間的網路連線

Git 資料夾需要與 Git 供應商的網路連線才能運作。 通常透過網際網路隨裝即用。 不過,您可能為了控制存取,已經在 Git 供應商設定其他限制。 例如,您可能有 IP 允許清單,或者您可能使用 GitHub Enterprise (GHE)、Bitbucket Server (BBS) 或 Gitlab 自我管理等服務,自行託管內部部署 Git 伺服器。 視網路託管和組態而定,Git 伺服器可能無法從網際網路存取。

注意

  • 如果 Git 伺服器可存取網際網路,但是有 IP 允許清單,例如 GitHub 允許清單,您必須將 Azure Databricks 控制平面 NAT IP 新增至 Git 伺服器的 IP 允許清單。 如需照區域分的控制平面 NAT IP 位址清單,請參閱 Azure Databricks 區域。 請使用 Azure Databricks 工作區所在區域的 IP。
  • 如果您是私下託管 Git 伺服器,請閱讀為 Azure Databricks Git 資料夾設定私有 Git 連線 (Repos),或連絡 Azure Databricks 帳戶團隊取得存取的入門指示。

Git 資料夾中的安全性功能

Databricks Git 資料夾有許多安全性功能。 下列各節逐步引導您設定及使用:

  • 使用加密的 Git 認證
  • 允許清單
  • 工作區存取控制
  • 稽核記錄
  • 祕密偵測

攜帶您自己的金鑰:加密 Git 認證

您可以使用 Azure Key Vault 加密 Git 個人存取權杖 (PAT) 或其他 Git 認證。 使用加密服務的金鑰稱為客戶自控金鑰 (CMK) 或攜帶您自己的金鑰 (BYOK)。

如需詳細資訊,請參閱適用於加密的客戶自控金鑰

限制使用允許清單中的 URL

如果您使用 Microsoft Entra ID 向 Azure DevOps 進行驗證,預設允許清單將 Git URL 限制為:

  • dev.azure.com
  • visualstudio.com

針對具有自訂 CNAMES 或 Git URL 別名的 AAD,工作區管理員可以設定自訂允許清單,如下列步驟所示。 如果您使用自訂允許清單,工作區管理員必須新增這些網址才能使用該網址:dev.azure.comvisualstudio.com

工作區管理員可以限制使用者可以複製、提交及推送的遠端存放庫。 這有助於防止程式碼外洩;例如,如果您已開啟允許清單限制,使用者就無法將程式碼推送至任意存放庫。 您也可以將複製作業限制為使用允許的存放庫清單,以防使用者使用未授權的程式碼。

若要設定允許清單:

  1. 移至 [設定頁面]。

  2. 按下 [工作區管理員] 索引標籤 (預設為開啟)。

  3. 在 [開發] 區段,從 [Git URL 允許清單權限] 選擇選項:

    • 已停用 (沒有限制):不依據允許清單進行檢查。
    • 限制複製、提交和推送至允許的 Git 存放庫:僅限允許清單中的存放庫 URL 執行複製、提交和推送作業。
    • 僅限制提交和推送至允許的 Git 存放庫:僅限允許清單中的存放庫 URL 執行提交和推送作業。 複製和接收作業不受限制。

    [管理員設定] 下方的 [開發] 窗格用於設定使用者 Git 存取權

  4. 按下 [Git URL 允許清單: 空白清單] 旁的 [編輯] 按鈕,然後輸入以逗號分隔的 URL 前置詞清單。

    開發管理員設定中的 [編輯允許清單] 按鈕

  5. 按一下 [儲存]。

注意

  • 您儲存的清單會覆寫現有的已儲存 URL 前置詞組。
  • 最多可能需要 15 分鐘的時間,才能讓變更生效。

允許存取所有存放庫

若要停用現有的允許清單,並允許存取所有存放庫:

  1. 移至 [設定頁面]。
  2. 按下 [工作區管理員] 索引標籤。
  3. [開發] 區段中的 [Git URL 允許列表權限] 下方:選取 [停用 (沒有限制)]。

控制工作區中存放庫的存取權

注意

進階版方案提供存取控制。

設定存放庫的權限,控制存取權。 存放庫的權限會套用至該存放庫的所有內容。 您可以為檔案指派五個權限等級:無權限、讀取、執行、編輯及管理。

如需 Git 資料夾權限的詳細資訊,請參閱 Git 資料夾 ACL

(選擇性) 設定企業 Git 伺服器的 Proxy

如果公司使用內部部署企業 Git 服務,例如 GitHub Enterprise 或 Azure DevOps Server,您可以使用 Databricks Git Server Proxy 將 Databricks 工作區連線到它所服務的存放庫。

稽核記錄

若啟用 [稽核記錄],與 Git 資料夾互動時會記錄稽核事件。 例如,建立、更新或刪除 Git 資料夾、列出與工作區相關聯的所有 Git 資料夾,以及同步處理 Git 資料夾與遠端 Git 存放庫之間的變更時,都會記錄稽核事件。

祕密偵測

Git 資料夾會掃描程式碼是否有開頭為前置詞 AKIA 的存取金鑰 ID,並在提交之前警告使用者。

使用存放庫設定檔

您可以在手動建立的 .databricks/commit_outputs 檔案中,將每個筆記本的設定新增至存放庫。

使用類似 gitignore 模式的模式,指定您想要包含輸出的筆記本。

存放庫設定檔的模式

檔案包含正向與反向檔案路徑模式。 檔案路徑模式包含筆記本副檔名,例如 .ipynb

  • 正向模式啟用讓輸出包含相符的筆記本。
  • 反向模式停用讓輸出包含相符的筆記本。

所有筆記本的模式都會依序進行評估。 忽略無效路徑或無法解析至 .ipynb 筆記本的路徑。

若要包含筆記本路徑的輸出folder/innerfolder/notebook.ipynb,請使用下列模式:

**/*
folder/**
folder/innerfolder/note*

若要排除筆記本的輸出,請檢查設定檔的正確位置沒有任何正向模式相符或新增反向模式。 反向 (排除) 模式的開頭為 !

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

將 Git 資料夾移至垃圾桶 (刪除)

若要從工作區移除 Git 資料夾:

  1. 以滑鼠右鍵按一下 Git 資料夾,然後選取 [移至垃圾桶]。

  2. 在對話框輸入您要刪除的 Git 資料夾名稱。 然後,按下 [確認並移至垃圾桶]。

    確認移至垃圾桶對話框。

下一步