Tipos de implantação do Azure OpenAI

Artigo
09/02/2024

O Azure OpenAI oferece aos clientes opções sobre a estrutura de hospedagem que se adapta aos seus padrões de negócios e uso. O serviço oferece dois tipos principais de implantação: padrão e provisionada. O Standard é oferecido com uma opção de implantação global, roteando o tráfego globalmente para fornecer uma taxa de transferência mais alta. Todas as implantações podem executar exatamente as mesmas operações de inferência, no entanto, o faturamento, a escala e o desempenho são substancialmente diferentes. Como parte do design da solução, você precisará tomar duas decisões principais:

Necessidades de residência de dados: recursos globais vs. regionais
Volume de chamadas: padrão vs. provisionado

Tipos de implantação global versus regional

Para implantações padrão, você tem a opção de dois tipos de configurações dentro do seu recurso – global ou regional. A norma global é o ponto de partida recomendado para o desenvolvimento e a experimentação. As implantações globais aproveitam a infraestrutura global do Azure, roteando dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Com implantações globais, há limites de taxa de transferência inicial mais altos, embora sua latência possa variar em altos níveis de uso. Para clientes que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada.

Nossas implantações globais serão o primeiro local para todos os novos modelos e recursos. Os clientes com requisitos de taxa de transferência muito grandes devem considerar nossa oferta de implantação provisionada.

Tipos de implementação

O Azure OpenAI oferece três tipos de implantações. Eles fornecem um nível variado de recursos que fornecem compensações sobre: taxa de transferência, SLAs e preço. Segue-se um resumo das opções, seguido de uma descrição mais profunda de cada uma delas.

Oferta	Lote global	Padrão Global	Standard	Aprovisionado
Mais adequado para	Pontuação offline Cargas de trabalho que não são sensíveis à latência e podem ser concluídas em horas. Para casos de uso que não têm requisitos de residência de processamento de dados.	Local de partida recomendado para os clientes. O Global-Standard terá a cota padrão mais alta e um número maior de modelos disponíveis do que o Standard.	Para clientes com requisitos de residência de dados. Otimizado para baixo a médio volume.	Pontuação em tempo real para um grande volume consistente. Inclui os compromissos e limites mais elevados.
Como funciona	Processamento offline através de ficheiros	O tráfego pode ser encaminhado para qualquer parte do mundo
Introdução	Lote global	Implantação do modelo	Implantação do modelo	Integração provisionada
Custo	Opção menos dispendiosa 50% menos custo em comparação com os preços padrão global. Acesso a todos os novos modelos com maiores alocações de quotas.	Preços globais de implantação	Preços regionais	Pode ter economia de custos para uso consistente
O que você ganha	Desconto significativo em comparação com o Padrão Global	Acesso fácil a todos os novos modelos com os limites de pagamento por chamada padrão mais altos. Clientes com alto uso de volume podem ver maior variabilidade de latência	Fácil acesso com SLA mediante disponibilidade. Otimizado para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.	Acesso regional com taxa de transferência muito alta e previsível. Determine a taxa de transferência por PTU usando a calculadora de capacidade fornecida
O que você não recebe	❌Desempenho de chamadas em tempo real ❌Garantia de tratamento de dados Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados	❌Garantia de tratamento de dados Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados	❌Alto volume com baixa latência consistente	❌Flexibilidade de pagamento por chamada
Latência por chamada	Não aplicável (processo assíncrono baseado em arquivo)	Otimizado para chamadas em tempo real e uso de baixo a médio volume. Clientes com uso de alto volume podem ver maior variabilidade de latência. Limite definido por modelo	Otimizado para chamadas em tempo real e uso de baixo a médio volume. Clientes com uso de alto volume podem ver maior variabilidade de latência. Limite definido por modelo	Otimizado para tempo real.
Nome do Sku no código	`GlobalBatch`	`GlobalStandard`	`Standard`	`ProvisionedManaged`
Modelo de faturação	Pagamento por token	Pagamento por token	Pagamento por token	Compromissos Mensais

Aprovisionado

As implantações provisionadas permitem especificar a quantidade de taxa de transferência necessária em uma implantação. Em seguida, o serviço aloca a capacidade de processamento de modelo necessária e garante que ela esteja pronta para você. A taxa de transferência é definida em termos de unidades de taxa de transferência provisionadas (PTU), que é uma maneira normalizada de representar a taxa de transferência para sua implantação. Cada par modelo-versão requer quantidades diferentes de PTU para implantar e fornecer quantidades diferentes de taxa de transferência por PTU. Saiba mais em nosso artigo Conceitos de taxa de transferência provisionada.

Standard

As implantações padrão fornecem um modelo de cobrança de pagamento por chamada no modelo escolhido. Fornece a maneira mais rápida de começar, pois você paga apenas pelo que consome. Os modelos disponíveis em cada região, bem como a taxa de transferência, podem ser limitados.

As implantações padrão são otimizadas para cargas de trabalho de baixo a médio volume com alto burstiness. Clientes com alto volume consistente podem experimentar maior variabilidade de latência.

Norma global

Importante

Os dados armazenados em repouso permanecem na geografia designada do Azure, enquanto os dados podem ser processados para inferência em qualquer local do Azure OpenAI. Saiba mais sobre residência de dados.

As implantações globais estão disponíveis nos mesmos recursos do Azure OpenAI que os tipos de implantação não globais, mas permitem que você aproveite a infraestrutura global do Azure para rotear dinamicamente o tráfego para o data center com a melhor disponibilidade para cada solicitação. O padrão global fornece a cota padrão mais alta e elimina a necessidade de balanceamento de carga em vários recursos.

Clientes com alto volume consistente podem experimentar maior variabilidade de latência. O limite é definido por modelo. Consulte a página de quotas para saber mais. Para aplicativos que exigem a menor variação de latência no uso de grande carga de trabalho, recomendamos a compra de taxa de transferência provisionada.

Lote global

Importante

O lote global é projetado para lidar com tarefas de processamento de grande escala e alto volume de forma eficiente. Processe grupos assíncronos de solicitações com cota separada, com prazo de entrega de 24 horas, a um custo 50% menor do que o padrão global. Com o processamento em lote, em vez de enviar uma solicitação de cada vez, você envia um grande número de solicitações em um único arquivo. As solicitações globais em lote têm uma cota de token enfileirada separada, evitando qualquer interrupção de suas cargas de trabalho online.

Os principais casos de utilização incluem:

Processamento de dados em larga escala: analise rapidamente conjuntos de dados extensos em paralelo.
Geração de conteúdo: crie grandes volumes de texto, como descrições de produtos ou artigos.
Revisão e Resumo de Documentos: Automatize a revisão e o resumo de documentos extensos.
Automação do suporte ao cliente: lide com várias consultas simultaneamente para respostas mais rápidas.
Extração e Análise de Dados: Extraia e analise informações de grandes quantidades de dados não estruturados.
Tarefas de Processamento de Linguagem Natural (NLP): Execute tarefas como análise de sentimento ou tradução em grandes conjuntos de dados.
Marketing e Personalização: Gere conteúdo personalizado e recomendações em escala.

Como desativar o acesso a implantações globais em sua assinatura

O Azure Policy ajuda a impor normas organizacionais e a avaliar o cumprimento em escala. Através do dashboard de conformidade, proporciona uma visão agregada para avaliar o estado geral do ambiente, com a capacidade de desagregar a granularidade por recurso e por política. Também ajuda a fazer com que os recursos fiquem em conformidade através da remediação em massa dos recursos existentes e da reparação automática dos recursos novos. Saiba mais sobre a Política do Azure e controles internos específicos para serviços de IA.

Você pode usar a política a seguir para desabilitar o acesso às implantações padrão global do Azure OpenAI.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Implementar modelos

Para saber mais sobre como criar recursos e implantar modelos, consulte o guia de criação de recursos.

Partilhar via