模型服务限制和区域
本文总结了 Mosaic AI 模型服务的限制和区域可用性,以及支持的终结点类型。
限制
Mosaic AI 模型服务施加了默认限制,以确保可靠的性能。 如果想提供有关这些限制的反馈,请联系 Databricks 帐户团队。
下表汇总了模型服务终结点的资源和有效负载限制。
功能 | 粒度 | 限制 |
---|---|---|
有效负载大小 | 每请求 | 16 MB。 对于为基础模型或外部模型提供服务的终结点,限制为 4 MB。 |
每秒查询次数 (QPS) | 每工作区 | 200 QPS。 可通过联系你的 Databricks 帐户团队来增加到 3000 或更多。 |
模型执行持续时间 | 每请求 | 120 秒 |
CPU 终结点模型内存使用 | /终结点 | 4GB |
GPU 终结点模型内存使用 | /终结点 | 大于或等于分配的 GPU 内存,取决于 GPU 工作负载大小 |
预配的并发 | 每工作区 | 200 并发。 可通过扩展到 Databricks 帐户增加。 |
开销延迟 | 每请求 | 小于 50 毫秒 |
基础模型 API(按令牌付费)费率限制 | 每工作区 | 若要提高以下限制,请联系 Databricks 客户团队。 * DBRX Instruct 模型限制为每秒 1 个查询。 * 其他聊天和完成模型的默认速率限制为每秒 2 个查询。 * 嵌入模型的默认速率限制为每秒 300 个嵌入输入。 |
基础模型 API(预配吞吐量)速率限制 | 每工作区 | 与上面列出的模型服务 QPS 限制相同。 |
模型服务终结点受到访问控制保护,遵守工作区上配置的与网络相关的流入量规则,例如 IP 允许列表和专用链接。
还存在其他限制:
- 工作区可以部署在受支持的区域,但由其他区域的控制平面提供服务。 这些工作区不支持模型服务,因此会出现一条错误消息,提示不支持你的工作区。 有关详细信息,请联系 Azure Databricks 帐户团队。
- 模型服务不支持初始化脚本。
- 默认情况下,模型服务不支持指向外部终结点(例如 Azure OpenAI)的专用链接。 对此功能的支持是根据每个区域进行评估和实施的。 有关详细信息,请联系 Azure Databricks 帐户团队。
基础模型 API 限制
注意
作为基础模型 API 的一部分,Databricks 可以在数据来源区域之外处理数据,但不能在相关地理位置之外处理数据。
以下是与基础模型 API 工作负载相关的限制:
- 预配吞吐量支持 HIPAA 合规性配置文件,应将其用于需要合规性认证的工作负载。 按令牌付费工作负载不符合 HIPAA 和合规性安全配置文件。
- 只有工作区管理员可以更改基础模型 API 终结点的治理设置(例如速率限制)。 若要更改速率限制,请执行以下步骤:
- 在工作区中打开服务 UI 以查看服务终结点。
- 在要编辑的基础模型 API 终结点的串形菜单中选择“查看详细信息”。
- 在终结点详细信息页右上角的串形菜单中,选择“更改速率限制”。
- 若要将 DBRX 模型体系结构用于预配吞吐量工作负载,服务终结点必须位于以下区域之一:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
区域可用性
注意
如果需要在不受支持的区域中使用终结点,请联系 Azure Databricks 帐户团队。
有关功能的区域可用性的详细信息,请参阅模型服务区域可用性。