模型服务限制和区域

本文总结了 Mosaic AI 模型服务的限制和区域可用性，以及支持的终结点类型。

限制

Mosaic AI 模型服务施加了默认限制，以确保可靠的性能。如果想提供有关这些限制的反馈，请联系 Databricks 帐户团队。

下表汇总了模型服务终结点的资源和有效负载限制。

功能	粒度	限制
有效负载大小	每请求	16 MB。对于为基础模型或外部模型提供服务的终结点，限制为 4 MB。
每秒查询次数 (QPS)	每工作区	200 QPS。可通过联系你的 Databricks 帐户团队来增加到 3000 或更多。
模型执行持续时间	每请求	120 秒
CPU 终结点模型内存使用	/终结点	4GB
GPU 终结点模型内存使用	/终结点	大于或等于分配的 GPU 内存，取决于 GPU 工作负载大小
预配的并发	每工作区	200 并发。可通过扩展到 Databricks 帐户增加。
开销延迟	每请求	小于 50 毫秒
基础模型 API（按令牌付费）费率限制	每工作区	若要提高以下限制，请联系 Databricks 客户团队。 * DBRX Instruct 模型限制为每秒 1 个查询。 * 其他聊天和完成模型的默认速率限制为每秒 2 个查询。 * 嵌入模型的默认速率限制为每秒 300 个嵌入输入。
基础模型 API（预配吞吐量）速率限制	每工作区	与上面列出的模型服务 QPS 限制相同。

模型服务终结点受到访问控制保护，遵守工作区上配置的与网络相关的流入量规则，例如 IP 允许列表和专用链接。

还存在其他限制：

工作区可以部署在受支持的区域，但由其他区域的控制平面提供服务。这些工作区不支持模型服务，因此会出现一条错误消息，提示不支持你的工作区。有关详细信息，请联系 Azure Databricks 帐户团队。
模型服务不支持初始化脚本。
默认情况下，模型服务不支持指向外部终结点（例如 Azure OpenAI）的专用链接。对此功能的支持是根据每个区域进行评估和实施的。有关详细信息，请联系 Azure Databricks 帐户团队。

注意

作为基础模型 API 的一部分，Databricks 可以在数据来源区域之外处理数据，但不能在相关地理位置之外处理数据。

以下是与基础模型 API 工作负载相关的限制：

预配吞吐量支持 HIPAA 合规性配置文件，应将其用于需要合规性认证的工作负载。按令牌付费工作负载不符合 HIPAA 和合规性安全配置文件。
只有工作区管理员可以更改基础模型 API 终结点的治理设置（例如速率限制）。若要更改速率限制，请执行以下步骤：
1. 在工作区中打开服务 UI 以查看服务终结点。
2. 在要编辑的基础模型 API 终结点的串形菜单中选择“查看详细信息”。
3. 在终结点详细信息页右上角的串形菜单中，选择“更改速率限制”。
若要将 DBRX 模型体系结构用于预配吞吐量工作负载，服务终结点必须位于以下区域之一：
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth

注意

如果需要在不受支持的区域中使用终结点，请联系 Azure Databricks 帐户团队。

有关功能的区域可用性的详细信息，请参阅模型服务区域可用性。