模型服务限制和区域

本文总结了 Mosaic AI 模型服务的限制和区域可用性,以及支持的终结点类型。

限制

Mosaic AI 模型服务施加了默认限制,以确保可靠的性能。 如果想提供有关这些限制的反馈,请联系 Databricks 帐户团队。

下表汇总了模型服务终结点的资源和有效负载限制。

功能 粒度 限制
有效负载大小 每请求 16 MB。 对于为基础模型外部模型提供服务的终结点,限制为 4 MB。
每秒查询次数 (QPS) 每工作区 200 QPS。 可通过联系你的 Databricks 帐户团队来增加到 3000 或更多。
模型执行持续时间 每请求 120 秒
CPU 终结点模型内存使用 /终结点 4GB
GPU 终结点模型内存使用 /终结点 大于或等于分配的 GPU 内存,取决于 GPU 工作负载大小
预配的并发 每工作区 200 并发。 可通过扩展到 Databricks 帐户增加。
开销延迟 每请求 小于 50 毫秒
基础模型 API(按令牌付费)费率限制 每工作区 若要提高以下限制,请联系 Databricks 客户团队。

* DBRX Instruct 模型限制为每秒 1 个查询。
* 其他聊天和完成模型的默认速率限制为每秒 2 个查询。
* 嵌入模型的默认速率限制为每秒 300 个嵌入输入。
基础模型 API(预配吞吐量)速率限制 每工作区 与上面列出的模型服务 QPS 限制相同。

模型服务终结点受到访问控制保护,遵守工作区上配置的与网络相关的流入量规则,例如 IP 允许列表和专用链接

还存在其他限制:

  • 工作区可以部署在受支持的区域,但由其他区域的控制平面提供服务。 这些工作区不支持模型服务,因此会出现一条错误消息,提示不支持你的工作区。 有关详细信息,请联系 Azure Databricks 帐户团队。
  • 模型服务不支持初始化脚本。
  • 默认情况下,模型服务不支持指向外部终结点(例如 Azure OpenAI)的专用链接。 对此功能的支持是根据每个区域进行评估和实施的。 有关详细信息,请联系 Azure Databricks 帐户团队。

基础模型 API 限制

注意

作为基础模型 API 的一部分,Databricks 可以在数据来源区域之外处理数据,但不能在相关地理位置之外处理数据。

以下是与基础模型 API 工作负载相关的限制:

  • 预配吞吐量支持 HIPAA 合规性配置文件,应将其用于需要合规性认证的工作负载。 按令牌付费工作负载不符合 HIPAA 和合规性安全配置文件
  • 只有工作区管理员可以更改基础模型 API 终结点的治理设置(例如速率限制)。 若要更改速率限制,请执行以下步骤:
    1. 在工作区中打开服务 UI 以查看服务终结点。
    2. 在要编辑的基础模型 API 终结点的串形菜单中选择“查看详细信息”。
    3. 在终结点详细信息页右上角的串形菜单中,选择“更改速率限制”。
  • 若要将 DBRX 模型体系结构用于预配吞吐量工作负载,服务终结点必须位于以下区域之一:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth

区域可用性

注意

如果需要在不受支持的区域中使用终结点,请联系 Azure Databricks 帐户团队。

有关功能的区域可用性的详细信息,请参阅模型服务区域可用性