Model Serving の制限とリージョン

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

制限事項

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限事項についてフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

機能 細分性 Limit
ペイロードのサイズ 要求ごと 16 MB。 基礎モデルまたは外部モデルを提供するエンドポイントの場合、制限は 4 MB です。
秒間クエリ (QPS) ワークスペースごと 200 QPS。 Databricks アカウント チームに連絡することにより、3000 以上に増やすことができます。
モデルの実行時間 要求ごと 120 秒
CPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 4GB
GPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みコンカレンシー ワークスペースごと 200 個のコンカレンシー。 あなたの Databricks アカウントに連絡することで増やすことができます。
オーバーヘッド待機時間 要求ごと 50 ミリ秒未満
Foundation Model API (トークンごとの支払い) のレート制限 ワークスペースごと 次の制限を引き上げるには、Databricks アカウント チームにお問い合わせください。

* DBRX Instruct モデルには、1 秒あたり 1 クエリという制限があります。
* その他のチャットおよび入力候補のモデルには、1 秒あたり 2 クエリという既定のレート制限があります。
* 埋め込みモデルには、1 秒あたり 300 個の埋め込み入力という既定値があります。
Foundation Model API (プロビジョニングされたスループット) のレート制限 ワークスペースごと 上記の Model Serving QPS の制限と同じです。

Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。

その他の制限事項もあります。

  • ワークスペースはサポートされているリージョンにデプロイできますが、別のリージョンのコントロール プレーンによって提供できます。 これらのワークスペースは Model Serving をサポートしていないため、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
  • Model Serving では、init スクリプトはサポートされていません。
  • 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価され、実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。

Foundation Model API の制限

Note

Foundation Model API の提供の一環として、Databricks がお客様のデータを元々のリージョンの外で処理する可能性はありますが、関連する地理的な場所の外でこれを行うことはありません。

Foundation Model API ワークロードに関連する制限を以下に示します。

  • プロビジョニングされたスループットは HIPAA コンプライアンス プロファイルをサポートしており、コンプライアンス認定を必要とするワークロードに使用する必要があります。 トークン単位の支払いのワークロードは、HIPAA やコンプライアンス セキュリティ プロファイル準拠ではありません
  • Foundation Model API エンドポイントでは、レート制限などのガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
    1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
    2. 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
  • プロビジョニングされたスループットのワークロードに DBRX モデル アーキテクチャを使用するには、提供エンドポイントが次のいずれかのリージョンに存在する必要があります。
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

利用可能なリージョン

Note

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

機能のリージョン可用性の詳細については、「リージョンの可用性に対応するモデル」を参照してください。