Modelo Limites de serviço e regiões

Artigo
11/09/2024

Este artigo resume as limitações e a disponibilidade da região para o Mosaic AI Model Serving e os tipos de endpoint suportados.

Limites de recursos e carga útil

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

A tabela a seguir resume as limitações de recursos e carga útil para pontos de extremidade de serviço de modelo.

Caraterística	Granularidade	Limite
Tamanho da carga útil	Por pedido	16 MB. Para endpoints que servem modelos de fundação ou modelos externos, o limite é de 4 MB.
Consultas por segundo (QPS)	Por espaço de trabalho	200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta Databricks.
Duração da execução do modelo	Por pedido	120 segundos
Uso da memória do modelo de ponto de extremidade da CPU	Por parâmetro de avaliação	4GB
Uso da memória do modelo de ponto de extremidade GPU	Por parâmetro de avaliação	Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada	Por modelo e por espaço de trabalho	200 simultaneidade. Pode ser aumentado entrando em contato com sua equipe de conta Databricks.
Latência de sobrecarga	Por pedido	Menos de 50 milissegundos
Scripts init		Não há suporte para scripts de inicialização.
Limites de taxa das APIs do Modelo de Base (pagamento por token)	Por espaço de trabalho	Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda o uso da taxa de transferência provisionada. - Llama 3.1 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora. - Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora. - O modelo DBRX Instruct tem um limite de 1 consulta por segundo. - O Mixtral-8x 7B Instruct tem um limite de taxa padrão de 2 consultas por segundo. - GTE Large (En) tem um limite de taxa de 150 consultas por segundo - BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada)	Por espaço de trabalho	200

Limitações de rede e segurança

Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.
A conectividade privada (como o Azure Private Link) só é suportada para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados.
Por padrão, o Serviço de Modelo não oferece suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Limites das APIs do Modelo de Base

Nota

Como parte do fornecimento das APIs do Modelo de Base, o Databricks pode processar seus dados fora da região de origem dos dados, mas não fora da localização geográfica relevante.

Para cargas de trabalho de pagamento por token e taxa de transferência provisionada:

Somente os administradores do espaço de trabalho podem alterar as configurações de governança, como limites de taxa para pontos de extremidade de APIs do Modelo de Base. Para alterar os limites de taxa, use as seguintes etapas:
1. Abra a interface do usuário de serviço em seu espaço de trabalho para ver seus pontos de extremidade de serviço.
2. No menu kebab no ponto de extremidade das APIs do Modelo de Fundação que você deseja editar, selecione Exibir detalhes.
3. No menu kebab no lado superior direito da página de detalhes dos endpoints, selecione Alterar limite de taxa.
Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por token

A seguir estão os limites relevantes para cargas de trabalho de pagamento por token de APIs do Modelo de Base:

As cargas de trabalho de pagamento por token não são compatíveis com HIPAA ou perfil de segurança de conformidade.
Os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões suportadas pela UE e pelos EUA.
Os seguintes modelos de pagamento por token são suportados apenas nas regiões dos EUA suportadas pelas APIs do Modelo de Base com suporte de pagamento por token:
- Meta Llama 3.1 405B Instruir
- DBRX Instruir
- Instruções Mixtral-8x7B
- BGE Grande (En)

Limites de taxa de transferência provisionada

A seguir estão os limites relevantes para cargas de trabalho de taxa de transferência provisionadas de APIs do Modelo de Base:

A taxa de transferência provisionada oferece suporte ao perfil de conformidade com a HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.
Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência provisionada, seu ponto de extremidade de serviço deve estar em uma das seguintes regiões:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
A tabela a seguir mostra a disponibilidade de região dos modelos Meta Llama 3.1 e 3.2 suportados. Consulte Implantar modelos de base ajustados para obter orientação sobre como implantar modelos ajustados.

Variante do modelo Meta Llama	Regiões
meta-lama/Llama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.1-8B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.1-70B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.2-1B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lama/Llama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.2-3B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

Disponibilidade da região

Nota

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Azure Databricks.

Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, você verá em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recursos, consulte Modelo que serve a disponibilidade regional.

Partilhar via