Gerenciar e aumentar cotas e limites de recursos com o Azure Machine Learning

O Azure usa cotas e limites para evitar saturações de orçamento devido a fraudes e para honrar as restrições de capacidade do Azure. Considere estes limites ao dimensionar para cargas de trabalho de produção. Neste artigo, você aprende sobre:

  • Limites padrão nos recursos do Azure relacionados ao Azure Machine Learning.
  • Criação de cotas no nível do espaço de trabalho.
  • Ver as suas quotas e limites.
  • Pedido de aumento de quotas.

Além de gerenciar cotas e limites, você pode aprender a planejar e gerenciar custos para o Azure Machine Learning ou aprender sobre os limites de serviço no Azure Machine Learning.

Considerações especiais

  • As quotas são aplicadas a cada subscrição na sua conta. Se você tiver várias assinaturas, deverá solicitar um aumento de cota para cada assinatura.

  • Uma cota é um limite de crédito nos recursos do Azure, não uma garantia de capacidade. Se tiver necessidades de capacidade de grande escala, contacte o suporte do Azure para aumentar a quota.

  • As quotas são partilhadas em todos os serviços nas subscrições, incluindo o Azure Machine Learning. Calcule a utilização em todos os serviços quando estiver a avaliar a capacidade.

    Nota

    A computação do Azure Machine Learning é uma exceção. Tem uma quota separada da quota de computação de núcleos.

  • Os limites padrão variam de acordo com o tipo de categoria de oferta, como avaliação gratuita, pré-pagamento conforme o uso e série de máquinas virtuais (VM) (como Dv2, F e G).

Cotas e limites de recursos padrão

Nesta seção, você aprenderá sobre as cotas e limites padrão e máximo para os seguintes recursos:

  • Ativos do Azure Machine Learning
  • Cálculos do Azure Machine Learning (incluindo o Spark sem servidor)
  • Quota partilhada do Azure Machine Learning
  • Pontos de extremidade online do Azure Machine Learning (gerenciados e Kubernetes) e pontos de extremidade em lote
  • Pipelines do Azure Machine Learning
  • Integração do Azure Machine Learning com Synapse
  • Máquinas virtuais
  • Azure Container Instances
  • Armazenamento do Azure

Importante

Os limites estão sujeitos a alterações. Para obter as informações mais recentes, consulte Limites de serviço no Azure Machine Learning.

Ativos do Azure Machine Learning

Os seguintes limites de ativos aplicam-se por espaço de trabalho .

Recurso Limite máximo
Conjuntos de Dados 10 milhões
Execuções 10 milhões
Modelos 10 milhões
Componente 10 milhões
Artefactos 10 milhões

Além disso, o tempo máximo de execução é de 30 dias e o número máximo de métricas registradas por execução é de 1 milhão.

Computação do Azure Machine Learning

O Azure Machine Learning Compute tem um limite de cota padrão para o número de núcleos e o número de recursos de computação exclusivos permitidos por região em uma assinatura.

Nota

  • A cota no número de núcleos é dividida por cada família VM e pelo total acumulado de núcleos.
  • A cota sobre o número de recursos de computação exclusivos por região é separada da cota principal da VM, pois se aplica apenas aos recursos de computação gerenciados do Aprendizado de Máquina do Azure.

Para aumentar os limites para os seguintes itens, solicite um aumento de cota:

  • Cotas principais da família VM. Para saber mais sobre para qual família de VMs solicitar um aumento de cota, consulte Tamanhos de máquinas virtuais no Azure. Por exemplo, as famílias de VMs de GPU começam com um "N" em seu nome de família (como a série NCv3).
  • Total de quotas principais de subscrição
  • Cota de cluster
  • Outros recursos nesta secção

Recursos disponíveis:

  • Os núcleos dedicados por região têm um limite predefinido de 24 a 300, dependendo do tipo de oferta da subscrição. Pode aumentar o número de núcleos dedicados por subscrição para cada família de VM. Famílias de VMs especializadas, como as séries NCv2, NCv3 ou ND, começam com um padrão de zero núcleos. As GPUs também têm zero núcleos por predefinição.

  • Os núcleos de baixa prioridade por região têm um limite predefinido de 100 a 3,000, dependendo do tipo de oferta da subscrição. O número de núcleos de baixa prioridade por subscrição pode ser aumentado e é um valor único nas famílias de VM.

  • O limite total de computação por região tem um limite padrão de 500 por região dentro de uma determinada assinatura e pode ser aumentado até um valor máximo de 2500 por região. Este limite é partilhado entre clusters de formação, instâncias de computação e implementações de pontos finais online geridos. Uma instância de computação é considerada um cluster de nó único para fins de quota.

A tabela a seguir mostra mais limites na plataforma. Entre em contato com a equipe de produto do Azure Machine Learning por meio de um tíquete de suporte técnico para solicitar uma exceção.

Recurso ou Ação Limite máximo
Espaços de trabalho por grupo de recursos 800
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool não habilitado para comunicação (ou seja, não pode executar trabalhos MPI) 100 nós, mas configurável até 65.000 nós
Os nós em uma única etapa de execução paralela são executados em um cluster de computação do Azure Machine Learning (AmlCompute) 100 nós, mas configurável até 65.000 nós se o cluster estiver configurado para ser dimensionado como mencionado anteriormente
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool habilitado para comunicação 300 nós, mas configurável até 4.000 nós
Nós em um único cluster de computação do Azure Machine Learning (AmlCompute) configurado como um pool habilitado para comunicação em uma família de VMs habilitada para RDMA 100 nós
Os nós em um único MPI são executados em um cluster de computação do Azure Machine Learning (AmlCompute) 100 nós
Vida útil do trabalho 21 dias1
Vida útil do trabalho em um nó de baixa prioridade 7 dias2
Servidores de parâmetros por nó 1

1 O tempo de vida máximo é a duração entre o início e o término de um trabalho. Os trabalhos concluídos persistem indefinidamente. Os dados de trabalhos não concluídos dentro do tempo de vida máximo não estão acessíveis.

2 Os trabalhos em um nó de baixa prioridade podem ser antecipados sempre que houver uma restrição de capacidade. Recomendamos que você implemente pontos de verificação em seu trabalho.

Quota partilhada do Azure Machine Learning

O Azure Machine Learning fornece um pool de cotas compartilhadas a partir do qual os usuários em várias regiões podem acessar a cota para executar testes por um período limitado de tempo, dependendo da disponibilidade. A duração do tempo específico depende do caso de uso. Ao usar temporariamente a cota do pool de cotas, você não precisa mais registrar um tíquete de suporte para um aumento de cota de curto prazo ou esperar que sua solicitação de cota seja aprovada antes de poder prosseguir com sua carga de trabalho.

O uso do pool de cotas compartilhadas está disponível para executar trabalhos do Spark e para testar a inferência para modelos Llama-2, Phi, Nemotron, Mistral, Dolly e Deci-DeciLM do Catálogo de Modelos por um curto período de tempo. Antes de implantar esses modelos por meio da cota compartilhada, você deve ter uma assinatura do Enterprise Agreement. Para obter mais informações sobre como usar a cota compartilhada para implantação de ponto de extremidade online, consulte Como implantar modelos básicos usando o estúdio.

Você deve usar a cota compartilhada apenas para criar pontos de extremidade de teste temporários, não pontos de extremidade de produção. Para pontos finais em produção, você deve solicitar uma cota dedicada preenchendo um tíquete de suporte. A cobrança de cota compartilhada é baseada no uso, assim como a cobrança para famílias de máquinas virtuais dedicadas. Para desativar a cota compartilhada para trabalhos do Spark, preencha o formulário de exclusão de alocação de capacidade compartilhada do Azure Machine Learning.

Pontos de extremidade online e pontos de extremidade em lote do Azure Machine Learning

Os pontos de extremidade online e os pontos de extremidade em lote do Azure Machine Learning têm limites de recursos descritos na tabela a seguir.

Importante

Esses limites são regionais, o que significa que você pode usar até esses limites por cada região que estiver usando. Por exemplo, se o seu limite atual para o número de pontos de extremidade por assinatura for 100, você poderá criar 100 pontos de extremidade na região Leste dos EUA, 100 pontos de extremidade na região Oeste dos EUA e 100 pontos de extremidade em cada uma das outras regiões suportadas em uma única assinatura. O mesmo princípio se aplica a todos os outros limites.

Para determinar o uso atual de um ponto de extremidade, exiba as métricas.

Para solicitar uma exceção da equipe de produto do Azure Machine Learning, use as etapas em Aumentos de limite de ponto de extremidade.

Recurso   Limite 1                                                 Permite exceção Aplica-se a
Nome do ponto final Os nomes dos pontos finais devem
  • Comece com uma carta
  • Ter de 3 a 32 caracteres
  • Consistem apenas em letras e números 2
  • Para o ponto de extremidade do Kubernetes, o nome do ponto de extremidade mais o nome da implantação devem ter de 6 a 62 caracteres no comprimento total
  • - Todos os tipos de parâmetros 3
    Nome da implementação Os nomes de implantação devem
  • Comece com uma carta
  • Ter de 3 a 32 caracteres
  • Consistem apenas em letras e números 2
  • Para o ponto de extremidade do Kubernetes, o nome do ponto de extremidade mais o nome da implantação devem ter de 6 a 62 caracteres no comprimento total
  • - Todos os tipos de parâmetros 3
    Número de pontos finais por subscrição 100 Sim Todos os tipos de parâmetros 3
    Número de pontos finais por cluster 60 - Ponto de extremidade online do Kubernetes
    Número de implantações por assinatura 500 Sim Todos os tipos de parâmetros 3
    Número de implantações por ponto de extremidade 20 Sim Todos os tipos de parâmetros 3
    Número de implantações por cluster 100 - Ponto de extremidade online do Kubernetes
    Número de instâncias por implantação 50 4 Sim Ponto de extremidade online gerenciado
    Tempo limite máximo de solicitação no nível do endpoint 180 segundos - Ponto de extremidade online gerenciado
    Tempo limite máximo de solicitação no nível do endpoint 300 segundos - Ponto de extremidade online do Kubernetes
    Total de solicitações por segundo no nível do endpoint para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Total de conexões por segundo no nível de endpoint para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Total de conexões ativas no nível do endpoint para todas as implantações 500 5 Sim Ponto de extremidade online gerenciado
    Largura de banda total no nível do endpoint para todas as implantações 5 MBPS 5 Sim Ponto de extremidade online gerenciado

    1 Trata-se de um limite regional. Por exemplo, se o limite atual do número de pontos de extremidade for 100, você poderá criar 100 pontos de extremidade na região Leste dos EUA, 100 pontos de extremidade na região Oeste dos EUA e 100 pontos de extremidade em cada uma das outras regiões com suporte em uma única assinatura. O mesmo princípio se aplica a todos os outros limites.

    2 Traços únicos como, my-endpoint-name, são aceitos em nomes de ponto de extremidade e implantação.

    3 Os pontos de extremidade e implantações podem ser de diferentes tipos, mas os limites se aplicam à soma de todos os tipos. Por exemplo, a soma de pontos de extremidade online gerenciados, ponto de extremidade online do Kubernetes e ponto de extremidade em lote em cada assinatura não pode exceder 100 por região por padrão. Da mesma forma, a soma de implantações online gerenciadas, implantações online do Kubernetes e implantações em lote em cada assinatura não pode exceder 500 por região por padrão.

    4 Reservamos 20% de recursos de computação extra para realizar upgrades. Por exemplo, se você solicitar 10 instâncias em uma implantação, deverá ter uma cota para 12. Caso contrário, você receberá um erro. Existem alguns SKUs VM que estão isentos de cotas extras. Para obter mais informações sobre alocação de cota, consulte Alocação de cota de máquina virtual para implantação.

    5 Solicitações por segundo, conexões, largura de banda, etc. estão relacionadas. Se você solicitar o aumento de qualquer um desses limites, certifique-se de estimar/calcular outros limites relacionados juntos.

    Alocação de cota de máquina virtual para implantação

    Para pontos de extremidade online gerenciados, o Aprendizado de Máquina do Azure reserva 20% de seus recursos de computação para executar atualizações em algumas SKUs de VM. Se você solicitar um determinado número de instâncias para essas SKUs de VM em uma implantação, deverá ter uma cota disponível para ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU evitar obter um erro. Por exemplo, se você solicitar 10 instâncias de uma VM Standard_DS3_v2 (que vem com quatro núcleos) em uma implantação, deverá ter uma cota para 48 núcleos (12 instances * 4 cores) disponível. Essa cota extra é reservada para operações iniciadas pelo sistema, como atualizações do sistema operacional e recuperação de VM, e não incorrerá em custo, a menos que essas operações sejam executadas.

    Existem certas VM SKUs que estão isentas de reserva de cota extra. Para exibir a lista completa, consulte Lista de SKU de pontos de extremidade online gerenciados. Para ver o seu uso e solicitar aumentos de cota, consulte Exibir seu uso e cotas no portal do Azure. Para ver o custo de execução de um endpoint online gerenciado, consulte Exibir custos de um endpoint online gerenciado.

    Pipelines do Azure Machine Learning

    Os pipelines do Azure Machine Learning têm os seguintes limites.

    Recurso Limite
    Passos num pipeline 30 000
    Espaços de trabalho por grupo de recursos 800

    Integração do Azure Machine Learning com Synapse

    O Azure Machine Learning serverless Spark fornece acesso fácil à capacidade de computação distribuída para dimensionar trabalhos do Apache Spark. O Serverless Spark utiliza a mesma cota dedicada que o Azure Machine Learning Compute. Os limites de cota podem ser aumentados enviando um tíquete de suporte e solicitando aumento de cota e limite para a série ESv3 na categoria "Serviço de Aprendizado de Máquina: Cota de Máquina Virtual".

    Para exibir o uso da cota, navegue até o estúdio de Aprendizado de Máquina e selecione o nome da assinatura para o qual você gostaria de ver o uso. Selecione "Cota" no painel esquerdo.

    Captura de ecrã das quotas do Azure Machine Learning.

    Máquinas virtuais

    Cada assinatura do Azure tem um limite no número de máquinas virtuais em todos os serviços. Os núcleos de máquina virtual têm um limite total regional e um limite regional por série de tamanho. Ambos os limites são aplicados separadamente.

    Por exemplo, considere uma subscrição com um limite total de núcleos de VM na região E.U.A. Leste de 30, um limite de núcleos de série A de 30 e um limite de núcleos de série D de 30. Essa assinatura teria permissão para implantar 30 VMs A1, ou 30 VMs D1, ou uma combinação das duas que não exceda um total de 30 núcleos.

    Não é possível aumentar os limites para máquinas virtuais acima dos valores mostrados na tabela a seguir.

    Recurso Limite
    Subscrições do Azure associadas a um inquilino do Microsoft Entra Ilimitado
    Coadministradores por subscrição Ilimitado
    Grupos de recursos por subscrição 980
    Tamanho da solicitação da API do Azure Resource Manager 4 194 304 bytes
    Tags por assinatura1 50
    Cálculos de tags exclusivos por assinatura2 80.000
    Implantações no nível de assinatura por local 8003
    Locais de implantações no nível de assinatura 10

    1 Você pode aplicar até 50 tags diretamente a uma assinatura. Dentro da assinatura, cada recurso ou grupo de recursos também é limitado a 50 tags. No entanto, a assinatura pode conter um número ilimitado de tags que estão dispersas por recursos e grupos de recursos.

    2 O Resource Manager devolve uma lista de nomes e valores de etiquetas na subscrição apenas quando o número de etiquetas exclusivas é igual ou inferior a 80 000. Uma tag exclusiva é definida pela combinação de ID de recurso, nome da tag e valor da tag. Por exemplo, dois recursos com o mesmo nome e valor de tag seriam calculados como duas tags exclusivas. Você ainda pode encontrar um recurso por tag quando o número exceder 80.000.

    3 As implantações são excluídas automaticamente do histórico à medida que você se aproxima do limite. Para obter mais informações, consulte Exclusões automáticas do histórico de implantação.

    Instâncias de contentores

    Para obter mais informações, consulte Limites de instâncias de contêiner.

    Armazenamento

    O Armazenamento do Azure tem um limite de 250 contas de armazenamento por região, por assinatura. Este limite inclui contas de armazenamento Standard e Premium.

    Cotas no nível do espaço de trabalho

    Use quotas no nível do workspace para gerir a alocação de destino de computação do Azure Machine Learning entre vários workspaces na mesma subscrição.

    Por predefinição, todas as áreas de trabalho partilham a mesma quota que a quota ao nível da subscrição das famílias de VMs. No entanto, pode definir uma quota máxima para as famílias de VMs individuais nas áreas de trabalho numa subscrição. As quotas para famílias de VM individuais permitem-lhe partilhar a capacidade e evitar problemas de contenção de recursos.

    1. Aceda a qualquer área de trabalho na subscrição.
    2. No painel esquerdo, selecione Utilizações + Quotas.
    3. Selecione o separador Configurar quotas para ver as quotas.
    4. Expanda uma família de VMs.
    5. Estabeleça um limite de quota em qualquer área de trabalho apresentada na família de VMs.

    Não é possível definir um valor negativo ou um valor superior à quota ao nível da subscrição.

    Captura de ecrã que mostra uma quota ao nível do espaço de trabalho do Azure Machine Learning.

    Nota

    É necessário ter permissões ao nível da subscrição para definir uma quota ao nível do espaço de trabalho.

    Ver quotas no estúdio

    1. Quando você cria um novo recurso de computação, por padrão, você vê apenas os tamanhos de VM que você já tem cota para usar. Mude a vista para Selecionar entre todas as opções.

      A captura de tela mostra a seleção de todas as opções para ver os recursos de computação que precisam de mais cota

    2. Role para baixo até ver a lista de tamanhos de VM para os quais você não tem cota.

      A captura de tela mostra a lista de cota zero

    3. Use o link para ir diretamente para a solicitação de suporte ao cliente on-line para obter mais cota.

    Ver a sua utilização e quotas no portal do Azure

    Para exibir sua cota para vários recursos do Azure, como máquinas virtuais, armazenamento ou rede, use o portal do Azure:

    1. No painel esquerdo, selecione Todos os serviços e, em seguida, selecione Subscrições na categoria Geral .

    2. Na lista de subscrições, selecione a subscrição cuja quota procura.

    3. Selecione Uso + cotas para exibir seus limites de cota e uso atuais. Use os filtros para selecionar o provedor e os locais.

      Você gerencia a cota de computação do Azure Machine Learning em sua assinatura separadamente de outras cotas do Azure:

    4. Vá para seu espaço de trabalho do Azure Machine Learning no portal do Azure.

    5. No painel esquerdo, na seção Suporte + solução de problemas , selecione Uso + cotas para exibir seus limites de cota e uso atuais.

      Captura de ecrã da vista do Portal do Azure dos limites de quota e utilização atuais.

    6. Selecione uma subscrição para ver os limites de quota. Filtre para a região em que está interessado.

    7. Você pode alternar entre um modo de exibição no nível da assinatura e um modo de exibição no nível do espaço de trabalho.

    Pedir aumentos de limite e de quota

    O aumento da quota da VM é para aumentar o número de núcleos por família de VM por região. O aumento do limite de pontos finais é para aumentar os limites específicos dos pontos finais por subscrição por região. Certifique-se de escolher a categoria certa ao enviar a solicitação de aumento de cota, conforme descrito na próxima seção.

    Aumento da quota de VM

    Para aumentar o limite da cota de VM do Azure Machine Learning acima do limite padrão, você pode solicitar aumento de cota na exibição Uso + cotas acima ou enviar uma solicitação de aumento de cota do estúdio Azure Machine Learning.

    1. Navegue para a página Utilização + quotas seguindo as instruções acima. Veja os limites de quota atuais. Selecione a SKU para a qual pretende pedir um aumento.

      Captura de ecrã dos detalhes da quota da VM.

    2. Indique a quota que pretende aumentar e o novo valor-limite. Por fim, selecione Enviar para continuar.

      Captura de ecrã do novo formulário de pedido de quota de VM.

    Aumento do limite do endpoint

    Para aumentar o limite de pontos finais, abra uma solicitação de suporte ao cliente on-line. Ao solicitar o aumento do limite do ponto final, forneça as seguintes informações:

    1. Ao abrir a solicitação de suporte, selecione Limites de serviço e assinatura (quotas) como o Tipo de problema.

    2. Selecione a assinatura da sua escolha.

    3. Selecione Serviço de aprendizado de máquina: Limites de endpoint como o Tipo de quota.

    4. Na guia Detalhes adicionais, é necessário fornecer razões pormenorizadas para o aumento do limite, para que o pedido seja processado. Selecione Introduzir detalhes e, em seguida, indique o limite que pretende aumentar e o novo valor para cada limite, o motivo do pedido de aumento do limite e a(s) localização(ões) onde necessita do aumento do limite. Certifique-se de adicionar as seguintes informações ao motivo do aumento do limite:

      1. Descrição do cenário e da carga de trabalho (como texto, imagem e assim por diante).
      2. Fundamentação do aumento solicitado.
        1. Forneça a taxa de transferência de destino e o seu padrão (QPS médio/pico, utilizadores simultâneos).
        2. Forneça a latência alvo em escala e a latência atual que observa com uma única instância.
        3. Forneça o SKU da VM e o número de instâncias no total para suportar a taxa de transferência e a latência pretendidas. Indique quantos pontos finais/implementações/instâncias planeia utilizar em cada região.
        4. Confirme se tem um teste de referência que indique a SKU de VM selecionada e o número de instâncias que satisfazem os seus requisitos de débito e latência.
        5. Indicar o tipo de carga útil e a dimensão de uma única carga útil. A largura de banda da rede deve estar alinhada com o tamanho do payload e os pedidos por segundo.
        6. Forneça um plano de tempo planeado (até quando precisa de aumentar os limites - forneça um plano faseado, se possível) e confirme se (1) o custo de funcionamento a essa escala está refletido no seu orçamento e (2) as SKUs de VM alvo estão aprovadas.
    5. Por fim, selecione Guardar e continuar para prosseguir.

      Captura de ecrã do formulário de detalhes do limite do ponto final.

      Nota

      Este pedido de aumento do limite do endpoint é diferente do pedido de aumento da quota da VM. Se a sua solicitação estiver relacionada ao aumento da quota da VM, siga as instruções na secção Aumento da cota da VM.

    Aumento do limite de computação

    Para aumentar o limite total de computação, abra uma solicitação de suporte ao cliente on-line. Forneça as seguintes informações:

    1. Ao abrir a solicitação de suporte, selecione Técnico como o tipo de problema.

    2. Selecione a subscrição da sua escolha

    3. Selecione Aprendizagem automática como o serviço.

    4. Selecione o recurso da sua escolha

    5. No resumo, mencione "Aumentar os limites totais de computação"

    6. Selecione Cluster de Computação como o tipo de Problema e Cluster não aumenta a escala ou está preso no redimensionamento como o subtipo de Problema.

      Captura de ecrã do separador Descrição do problema.

    7. Na guia Detalhes adicionais, forneça a ID da assinatura, a região, o novo limite (entre 500 e 2500) e a justificativa comercial se quiser aumentar os limites totais de computação nesta região.

      Captura de ecrã do separador

    8. Por fim, selecione Criar para criar um pedido de assistência.