透過 Azure Databricks 提供的模型服務

本文說明馬賽克 AI 模型服務,包括其優點和限制。

什麼是模型服務?

馬賽克 AI 模型服務提供統一介面來部署、控管和查詢 AI 模型。 您提供的每個模型都可作為 REST API,您可以整合到 Web 或用戶端應用程式中。

模型服務提供高可用性和低延遲的服務來部署模型。 服務會自動相應增加或減少以符合需求變更,同時節省基礎結構成本,同時將延遲效能優化。 此功能使用 無伺服器計算。 如需詳細資訊, 請參閱模型服務定價頁面

模型服務支援服務:

  • 自訂模型。 這些是以 MLflow 格式封裝的 Python 模型。 它們可以在 Unity 目錄或工作區模型登錄中註冊。 範例包括 scikit-learn、XGBoost、PyTorch 和 Hugging 臉部轉換器模型。
  • 基礎模型 API 所提供的最先進的開放式模型。 這些模型是經過策劃的基礎模型架構,可支援優化的推斷。 基本模型,如 Llama-2-70B-chat、BGE-Large 和 Mistral-7B,可用於立即搭配按令牌付費定價使用,以及需要效能保證和微調模型變體的工作負載可以使用布建的輸送量來部署
  • 外部模型。 這些是裝載在 Databricks 外部的行用 AI 模型。 服務外部模型的端點可以集中控管,客戶可以為其建立速率限制和訪問控制。 範例包括 OpenAI 的 GPT-4、人類學的 Claude 等模型。

注意

您可以使用 AI 遊樂場與支援的大型語言模型互動。 AI 遊樂場是類似聊天的環境,您可以在其中測試、提示和比較 LLM。 這項功能可在 Azure Databricks 工作區中使用。

模型服務提供適用於 CRUD 和查詢工作的統一 REST API 和 MLflow 部署 API。 此外,它也提供單一 UI 來管理您的所有模型及其各自的服務端點。 您也可以使用 AI 函 式直接從 SQL 存取模型,以便輕鬆地整合到分析工作流程中。

如需如何在 Azure Databricks 上提供自定義模型的簡介教學課程,請參閱 教學課程:部署和查詢自定義模型

如需如何在 Databricks 上查詢基礎模型的入門教學課程,請參閱 開始使用 Databricks 上的 LLM 查詢。

為什麼要使用模型服務?

  • 部署和查詢任何模型:模型服務提供統一介面,讓您可以在單一位置管理所有模型,並使用單一 API 查詢它們,而不論它們裝載於 Databricks 或外部。 此方法可簡化跨各種雲端和提供者在生產環境中實驗、自定義和部署模型的程式。
  • 使用私人數據安全地自定義模型:建置在數據智能平臺上,模型服務可透過原生整合 Databricks 功能存放區和馬賽克 AI 向量搜尋,簡化功能和內嵌至模型。 為了更進一步改善的精確度和內容理解,模型可以使用專屬數據微調,並在模型服務上毫不費力地部署。
  • 控管和監視模型:服務UI可讓您集中管理一個位置的所有模型端點,包括外部裝載的端點。 您可以管理許可權、追蹤和設定使用限制,以及監視 所有類型的模型品質。 這可讓您將 SaaS 的存取權大眾化,並在組織內開啟 LLM,同時確保適當的護欄就緒。
  • 使用優化的推斷和快速調整來降低成本:Databricks 已實作一系列優化,以確保您取得大型模型的最佳輸送量和延遲。 端點會自動相應增加或減少以符合需求變更,同時節省基礎結構成本,同時將延遲效能優化。 監視模型服務成本

注意

對於延遲敏感或每秒需要高查詢的工作負載,模型服務會在自定義模型服務端點上提供路由優化,請參閱 在服務端點上設定路由優化。

  • 將可靠性和安全性帶入模型服務:模型服務是專為高可用性、低延遲的生產環境使用而設計,且每秒可支持超過 25K 個查詢,額外延遲小於 50 毫秒。 服務工作負載會受到多層安全性的保護,可確保即使是最敏感的工作,也提供安全且可靠的環境。

注意

模型服務不會提供現有模型映像的安全性修補程式,因為生產部署有不穩定的風險。 從新模型版本建立的新模型映像將包含最新的修補程式。 請連絡 Databricks 帳戶小組以取得詳細資訊。

需求

為您的工作區啟用模型服務

在工作區中啟用模型服務不需要其他步驟。

限制和區域可用性

馬賽克 AI 模型服務會強制執行預設限制,以確保可靠的效能。 請參閱 模型服務限制和區域。 如果您有這些限制或不支持區域中端點的意見反應,請連絡您的 Databricks 帳戶小組。

模型服務中的數據保護

Databricks 會認真對待數據安全性。 Databricks 瞭解您使用馬賽克 AI 模型服務分析的數據的重要性,並實作下列安全性控件來保護您的數據。

  • 模型服務的每個客戶要求都會以邏輯方式隔離、驗證和授權。
  • 馬賽克 AI 模型服務會加密待用數據 (AES-256) 和傳輸中 (TLS 1.2+)。

針對所有付費帳戶,馬賽克 AI 模型服務不會使用提交至服務的使用者輸入,或從服務輸出來定型任何模型或改善任何 Databricks 服務。

針對 Databricks Foundation 模型 API,作為提供服務的一部分,Databricks 可能會暫時處理和儲存輸入和輸出,以防止、偵測和減輕濫用或有害用途。 您的輸入和輸出會與其他客戶隔離,儲存在與您工作區相同的區域中長達 30 天,且只能用於偵測及回應安全性或濫用問題。

其他資源