你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

管理和提高 Azure 机器学习资源的配额和限制

Azure 使用配额和限制来防止由于欺诈导致的预算超支,并遵循 Azure 容量约束。 对于生产工作负荷,在缩放时请考虑这些限制。 本文介绍:

  • Azure 机器学习相关的 Azure 资源的默认限制。
  • 创建工作区级别的配额。
  • 查看你的配额和限制。
  • 请求增大配额。

除了配额和限制管理外,还可以了解如何计划和管理 Azure 机器学习的成本或了解 Azure 机器学习的服务限制

特殊注意事项

  • 配额将应用于帐户中的每个订阅。 如果有多个订阅,则必须为每个订阅请求增加配额。

  • 配额是 Azure 资源的额度限制不是容量保证。 如果有大规模容量需求,请与 Azure 支持部门联系来增加你的配额

  • 配额在订阅中的所有服务(包括 Azure 机器学习)之间共享。 你在评估容量时需计算所有服务中的使用量。

    注意

    Azure 机器学习计算是一个例外。 它具有独立于核心计算配额的配额。

  • 默认限制因套餐类别类型而异,例如免费试用、即用即付,也因虚拟机 (VM) 系列(例如 Dv2、F、G)而异。

默认资源配额和限制

在本部分中,你将了解以下资源的默认和最大配额和限制:

  • Azure 机器学习资产
  • Azure 机器学习计算(包括无服务器 Spark)
  • Azure 机器学习共享配额
  • Azure 机器学习联机终结点(托管和 Kubernetes)和批处理终结点
  • Azure 机器学习管道
  • Azure 机器学习与 Synapse 的集成
  • 虚拟机
  • Azure 容器实例
  • Azure 存储

重要

限制随时会变化。 有关最新信息,请参阅 Azure 机器学习中的服务限制

Azure 机器学习资产

以下资产限制对每个工作区施加。

资源 最大限制
数据集 1 千万
运行次数 1 千万
模型 1 千万
组件 1 千万
Artifacts 1 千万

另外,最长运行时间为 30 天,每次运行记录的指标的最大数量为 1 百万 。

Azure 机器学习计算

Azure 机器学习计算为订阅中每个区域所允许的核心数唯一计算资源数设置了默认配额限制。

注意

  • 核心数的配额按每个 VM 系列和累计总核心数进行拆分。
  • 每个区域唯一计算资源数的配额 与 VM 核心配额不同,因为它仅适用于 Azure 机器学习的托管计算资源。

要提高以下项的限制,可以请求增加配额

  • VM 系列核心配额。 若要详细了解要为哪个 VM 系列请求增加配额,请参阅 Azure 中的虚拟机大小。 例如,GPU VM 系列的系列名称以“N”开头(如 NCv3 系列)。
  • 订阅核心配额总数
  • 群集配额
  • 本部分中的其他资源

可用资源:

  • 每个区域的专用核心数的默认限制为 24 到 300 个,具体取决于订阅套餐的类型。 可以为每个 VM 系列提高每个订阅的专用核心数。 专业化 VM 系列(例如 NCv2、NCv3 或 ND 系列)最初的默认限制为零个核心。 GPU 也默认为零核。

  • 每个区域的低优先级核心数的默认限制为 100 到 3000 个,具体取决于订阅套餐的类型。 每个订阅的低优先级核心数可以提高,对不同的 VM 系列采用单个值。

  • 每个区域的总计算限制默认限制为给定订阅中每个区域 500 个,最多可以增加到每个区域的最大值 2500 个。 此限制在训练群集、计算实例和托管联机终结点部署之间共享。 就配额用途来说,可以将计算实例视为单节点群集。

下表显示了平台中的其他限制。 若要提出有关例外情况的请求,请通过技术支持票证与 Azure 机器学习产品团队联系。

资源或操作 最大限制
每个资源组的工作区数 800
设置为未启用通信的池(即无法运行 MPI 作业)的单个 Azure 机器学习计算 (AmlCompute) 群集中的节点 100 个节点,但最多可配置为 65,000 个节点
在 Azure 机器学习计算 (AmlCompute) 群集上运行的单个并行运行步骤中的节点 100 个节点,但如果群集设置允许上述缩放操作,则最多可配置为 65,000 个节点
设置为已启用通信的池的单个 Azure 机器学习计算 (AmlCompute) 群集中的节点 300 个节点,但最多可配置为 4,000 个节点
在已启用 RDMA 的 VM 系列上设置为已启用通信的池的单个 Azure 机器学习计算 (AmlCompute) 群集中的节点 100 个节点
在 Azure 机器学习计算 (AmlCompute) 群集上运行的单个 MPI 中的节点 100 个节点
作业生存期 21 天1
低优先级节点上的作业生存期 7 天2
每个节点的参数服务器数 1

1 最大生存期是指从作业开始到作业完成之间的持续时间。 已完成的作业无限期保留。 最长生存期内未完成的作业的数据不可访问。

2 每当存在容量约束时,低优先级节点上的作业可能会预先清空。 我们建议在作业中实施检查点。

Azure 机器学习共享配额

Azure 机器学习提供了一个共享配额池,不同区域中的用户可以根据可用性从中访问配额以执行有限时间的测试。 具体持续时间取决于用例。 如果暂时使用配额池中的配额,则无需为短期提高配额而提交支持票证,也无需等待配额请求获得批准,即可继续处理工作负载。

使用共享配额池可用于运行 Spark 作业,以及短期内从模型目录测试 Llama-2、Phi、Nemotron、Mistral、Dolly 和 Deci-DeciLM 模型的推理。 在通过共享配额部署这些模型之前,必须具有企业协议订阅。 有关如何使用共享配额进行联机终结点部署的详细信息,请参阅如何使用工作室部署基础模型

应仅将共享配额用于创建临时测试终结点,而不要用于创建生产终结点。 对于生产环境中的终结点,应该通过提交支持票证来请求专用配额。 共享配额的计费基于使用量,就像专用虚拟机系列的计费方式一样。 要选择退出 Spark 作业的共享配额,请填写Azure 机器学习共享容量分配选择退出表单

Azure 机器学习联机终结点和批处理终结点

Azure 机器学习联机终结点和批处理终结点具有下表中所述的资源限制。

重要

这些限制是区域性的,意味着每个正在使用的区域不能超过这些限制。 例如,如果每个订阅的当前终结点数限制为 100,则在一个订阅中可以在美国东部区域创建 100 个终结点、在美国西部区域创建 100 个终结点,以及在其他每个受支持的区域创建 100 个终结点。 相同的原则适用于所有其他限制。

若要确定终结点的当前使用情况,请查看指标

若要向 Azure 机器学习产品团队请求例外,请使用终结点限制提高中的步骤。

资源   限制 1                                                 允许例外情况 适用于
终结点名称 终结点名称必须
  • 以字母开头
  • 长度为 3-32 个字符
  • 只能包含字母和数字 2
  • 对于 Kubernetes 终结点,终结点名称加上部署名称的总长度必须为 6-62 个字符
  • - 终结点的所有类型 3
    部署名称 部署名称必须
  • 以字母开头
  • 长度为 3-32 个字符
  • 只能包含字母和数字 2
  • 对于 Kubernetes 终结点,终结点名称加上部署名称的总长度必须为 6-62 个字符
  • - 终结点的所有类型 3
    每个订阅的终结点数 100 终结点的所有类型 3
    每个群集的终结点数量 60 - Kubernetes 联机终结点
    每个订阅的部署数 500 终结点的所有类型 3
    每个终结点的部署数 20 终结点的所有类型 3
    每个群集的部署数 100 - Kubernetes 联机终结点
    每个部署的实例数 50 4 托管联机终结点
    终结点级别的最大请求超时 180 秒 - 托管联机终结点
    终结点级别的最大请求超时 300 秒 - Kubernetes 联机终结点
    终结点级别所有部署的每秒请求总数 500 5 托管联机终结点
    终结点级别所有部署的每秒连接总数 500 5 托管联机终结点
    终结点级别所有部署的活动连接总数 500 5 托管联机终结点
    终结点级别所有部署的总带宽 5 MBPS 5 托管联机终结点

    1 这是区域限制。 例如,如果当前终结点数限制为 100,则在一个订阅中可以在美国东部区域创建 100 个终结点、在美国西部区域创建 100 个终结点,以及在其他每个受支持的区域创建 100 个终结点。 相同的原则适用于所有其他限制。

    2 终结点和部署名称中接受单个短划线,例如 my-endpoint-name

    3 终结点和部署可以是不同类型的,但限制适用于所有类型的总和。 例如,默认情况下,每个订阅下的托管联机终结点、Kubernetes 联机终结点和批处理终结点的总和不能超过 100 个/区域。 同样,默认情况下,每个订阅下的托管联机部署、Kubernetes 联机部署和批处理部署的总和不能超过 500 个/区域。

    4 我们预留 20% 的额外计算资源来执行升级。 例如,如果要在部署中请求 10 个实例,则必须有 12 个实例的配额。 否则,你将收到错误。 有一些 VM SKU 从额外的配额中免除。 有关配额分配的更多信息,请参阅部署的虚拟机配额分配

    5 每秒请求数、连接数、带宽等都相关。 如果请求提高这些限制中的任何一项,请确保将其他相关限制一并估算/计算。

    用于部署的虚拟机配额分配

    对于托管联机终结点,Azure 机器学习会保留 20% 的计算资源,以便在某些 VM SKU 上执行升级。 如果你在某个部署中为这些 VM SKU 请求给定数量的实例,则为了避免收到错误,你必须有 ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU 配额可用。 例如,如果在部署中请求 Standard_DS3_v2 VM(带有 4 个内核)的 10 个实例,则应该为 48 个内核 (12 instances * 4 cores) 提供可用配额。 此额外配额是为系统启动的操作(如 OS 升级和 VM 恢复)保留的,除非此类操作运行,否则不会产生费用。

    某些 VM SKU 可以免除额外的配额预留。 要查看完整列表,请参阅《托管联机终结点 SKU 列表》。 若要查看使用情况和请求增加配额,请参阅在 Azure 门户中查看使用情况和配额。 若要查看运行托管联机终结点的成本,请参阅查看托管联机终结点的费用

    Azure 机器学习管道

    Azure 机器学习管道具有以下限制。

    资源 限制
    管道中的步骤 30,000
    每个资源组的工作区数 800

    Azure 机器学习与 Synapse 的集成

    使用 Azure 机器学习无服务器 Spark,可以轻松获得扩缩 Apache Spark 作业所需的分布式计算能力。 无服务器 Spark 与 Azure 机器学习计算使用相同的专用配额。 可以提高配额限制,方法是在“机器学习服务:虚拟机配额”类别下提交支持票证并为 ESv3 系列请求提高配额和限制

    若要查看配额使用情况,请导航到机器学习工作室,然后选择要查看其使用情况的订阅名称。 在左侧面板中选择“配额”。

    Azure 机器学习配额的屏幕截图。

    虚拟机

    每个 Azure 订阅都对所有服务中的虚拟机数量进行了限制。 虚拟机核心数既有区域总数限制,又有按大小系列的区域限制。 这两种限制单独实施。

    例如,假设某个订阅的美国东部 VM 核心总数限制为 30,A 系列核心数限制为 30,D 系列核心数限制为 30。 该订阅可以部署 30 个 A1 VM、30 个 D1 VM,或者两者的组合,但其总数不能超过 30 个核心。

    不能将对虚拟机的限制提升至高于下表中显示的值。

    资源 限制
    与 Microsoft Entra 租户关联的 Azure 订阅 无限制
    每个订阅的协同管理员数 无限制
    每个订阅的资源组数 980
    Azure 资源管理器 API 请求大小 4,194,304 字节
    每个订阅的标记数1 50
    每个订阅的唯一标记计算2 80,000
    每个位置的订阅级部署数 8003
    订阅级别部署的位置 10

    1可以将最多 50 个标记直接应用于一个订阅。 在订阅中,每个资源或资源组也限制为 50 个标记。 但是,订阅可以包含不限数量的标记,这些标记分散在资源和资源组中。

    2仅当唯一标记数少于或等于 80,000 时,资源管理器才返回订阅中标记名称和值的列表。 唯一标记是由资源 ID、标记名称和标记值的组合定义的。 例如,具有相同标记名称和值的两个资源将被计算为两个唯一标记。 当数目超过 80,000 时,仍可通过标记找到资源。

    3当数量接近限额时,将自动从历史记录中删除部署。 有关详细信息,请参阅从部署历史记录中自动删除

    容器实例

    有关详细信息,请参阅容器实例限制

    存储

    Azure 存储的限制是每个订阅在每个区域中的存储帐户数不能超过 250 个。 此限制包括标准和高级存储帐户。

    工作区级别的配额

    使用工作区级配额来管理同一订阅中多个工作区之间的 Azure 机器学习计算目标分配。

    默认情况下,所有工作区的配额与任何 VM 系列的订阅级配额相同。 但是,你可以在订阅中的工作区上设置各个 VM 系列的最大配额。 单个 VM 系列的配额允许共享容量并避免资源争用问题。

    1. 转到你的订阅中的任何工作区。
    2. 在左侧窗格中,选择“使用量 + 配额”。
    3. 选择“配置配额”选项卡以查看配额。
    4. 展开某个 VM 系列。
    5. 在任何工作区(在该 VM 系列下列出)上设置配额限制。

    不能设置负值或大于订阅级配额的值。

    屏幕截图显示了 Azure 机器学习工作区级别的配额。

    注意

    需要拥有订阅级别的权限才能在工作区级别设置配额。

    在工作室中查看配额

    1. 创建新的计算资源时,默认情况下只会看到已有使用配额的 VM 大小。 将视图切换到“从所有选项中选择”。

      显示选择所有选项以查看需要更多配额的计算资源的屏幕截图

    2. 向下滚动,直到看到没有配额的 VM 大小的列表。

      显示零配额列表的屏幕截图

    3. 使用链接直接转到联机客户支持请求,以获取更多配额。

    在 Azure 门户中查看使用情况和配额

    若要查看各种 Azure 资源(例如虚拟机、存储或网络)的配额,请使用 Azure 门户

    1. 在左窗格上,选择“所有服务”,然后在“一般”类别下选择“订阅” 。

    2. 从订阅列表中选择要查找其配额的订阅。

    3. 选择“使用情况 + 配额”以查看当前的配额限制和使用情况。 使用筛选器选择提供者和位置。

      订阅中的 Azure 机器学习计算配额与其他 Azure 配额分开管理:

    4. 在 Azure 门户中转到 Azure 机器学习工作区。

    5. 在左侧窗格的“支持 + 故障排除”部分中,选择“使用情况 + 配额”以查看当前的配额限制和使用情况 。

      Azure 门户当前配额限制和使用情况视图的屏幕截图。

    6. 选择订阅以查看配额限制。 筛选到你关注的区域。

    7. 你可以在订阅级视图与工作区级视图之间切换。

    请求提高配额和限制

    VM 配额提高是为了提高每个区域每个 VM 系列的核心数。 终结点限制提高是为了提高每个区域每个订阅的特定于终结点的限制。 确保在提交配额提高请求时选择正确的类别,如下一节所述。

    VM 配额提高

    要将 Azure 机器学习 VM 配额的限制提高到默认限制以上,可以从上述“使用情况 + 配额”视图请求增加配额,或者从 Azure 机器学习工作室提交配额增加请求。

    1. 按照上述说明导航到“使用情况 + 配额”页。 查看当前配额限制。 选择要请求增加的 SKU。

      VM 配额详细信息的屏幕截图。

    2. 提供要增加的配额和新限值。 最后,选择“提交”以继续。

      新 VM 配额请求表单的屏幕截图。

    终结点限制提高

    要提高终结点限制,请建立联机客户支持请求。 在请求提高终结点限制时,请提供以下信息:

    1. 在打开支持请求时,选择“服务和订阅限制(配额)”作为“问题类型”。

    2. 选择所选的订阅。

    3. 选择“机器学习服务: 终结点限制”作为“配额类型”。

    4. 在“其他详细信息”选项卡上,需要提供提高限制的详细原因,以便处理请求。 选择“输入详细信息”,然后提供你要提高的限制和每个限制的新值、请求提高限制的原因以及需要提高限制的位置。 务必将以下信息添加到提高限制的原因中:

      1. 场景与工作负载的说明(如文本、图像等)。
      2. 请求提高的理由。
        1. 提供目标吞吐量及其模式(平均/峰值 QPS、并发用户)。
        2. 提供大规模的目标延迟,以及使用单个实例观察到的当前延迟。
        3. 提供 VM SKU 和总实例数,以支持目标吞吐量和延迟。 提供计划在每个区域中使用的终结点/部署/实例数。
        4. 确认是否有一个基准测试,指示所选的 VM SKU 以及满足吞吐量和延迟要求的实例数量。
        5. 提供有效负载的类型和单个有效负载的大小。 网络带宽应与负载大小和每秒请求数保持一致。
        6. 提供计划的时间计划(至你需要提高限制时 - 如果可能,提供分阶段计划),并确认 (1) 在该规模下运行该计划的成本反映在预算中,并且 (2) 目标 VM SKU 获得批准。
    5. 最后,选择“保存并继续”以继续。

      终结点配额详细信息表单的屏幕截图。

      注意

      此终结点限制提高请求不同于 VM 配额提高请求。 如果请求与 VM 配额提高相关,请按照 VM 配额提高一节中的说明进行操作。

    计算限制增加

    若要提高总计算限制,请创建联机客户支持请求。 提供以下信息:

    1. 在创建支持请求时,选择“技术”作为“问题类型”。

    2. 选择所选的订阅

    3. 选择“机器学习”作为“服务”。

    4. 选择所选资源

    5. 在摘要中,输入“增加总计算限制”

    6. 选择“计算群集”作为“问题类型”,选择“群集不会纵向扩展,或停滞在调整大小状态”作为“问题子类型”。

      “问题说明”选项卡的屏幕截图。

    7. 若要增加此区域中的总计算限制,请在“其他详细信息”选项卡上提供订阅 ID、区域、新限制(介于 500 到 2500 之间)和业务理由。

      “其他详细信息”选项卡的屏幕截图。

    8. 最后,选择“创建”以创建支持请求票证。