Integração de unidades de taxa de transferência provisionadas

Este artigo orienta você pelo processo de integração para unidades de taxa de transferência provisionadas (PTU). Depois de concluir a integração inicial, recomendamos consultar o guia de introdução da PTU.

Quando usar unidades de taxa de transferência provisionadas (PTU)

Você deve considerar a mudança de taxa de transferência pré-paga para provisionada quando tiver requisitos de taxa de transferência bem definidos e previsíveis. Normalmente, isso ocorre quando o aplicativo está pronto para produção ou já foi implantado em produção e há um entendimento do tráfego esperado. Isso permite que os usuários prevejam com precisão a capacidade necessária e evitem cobranças inesperadas.

Cenários típicos de PTU

  • Um aplicativo que está pronto para produção ou em produção.
  • Um aplicativo que tem expectativas previsíveis de capacidade/uso.
  • Um aplicativo tem requisitos sensíveis a latência/tempo real.

Nota

Em casos de uso de agente e chamada de função, o uso do token pode ser variável. Você deve entender o uso esperado de Tokens por Minuto (TPM) em detalhes antes de migrar cargas de trabalho para PTU.

Dimensionamento e estimativa: provisionado e provisionado global

Determinar a quantidade certa de taxa de transferência provisionada, ou PTUs, necessária para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo. Esta seção descreve como usar a ferramenta de planejamento de capacidade do Azure OpenAI. A ferramenta fornece uma estimativa da PTU necessária para atender às necessidades de sua carga de trabalho.

Estimar a taxa de transferência e o custo provisionados

Para obter uma estimativa rápida para sua carga de trabalho, abra o planejador de capacidade no Azure OpenAI Studio. O planejador de capacidade está em Cota>de recursos>compartilhados Azure OpenAI Provisioned.

A opção Provisionado e o planejador de capacidade só estão disponíveis em determinadas regiões no painel Cotas, se você não vir essa opção, definir a região de cota como Suécia Central disponibilizará essa opção. Insira os seguintes parâmetros com base na sua carga de trabalho.

Entrada Description
Modelo Modelo OpenAI que você planeja usar. Por exemplo: GPT-4
Versão Versão do modelo que pretende utilizar, por exemplo 0614
Pico de chamadas por minuto O número de chamadas por minuto que se espera que sejam enviadas para o modelo
Tokens em chamada imediata O número de tokens no prompt para cada chamada para o modelo. Chamadas com prompts maiores utilizam mais da implantação da PTU. Atualmente, esta calculadora assume um único valor de prompt para cargas de trabalho com grande variância. Recomendamos comparar sua implantação com seu tráfego para determinar a estimativa mais precisa de PTU necessária para sua implantação.
Tokens na resposta do modelo O número de tokens gerados a partir de cada chamada para o modelo. Chamadas com tamanhos de geração maiores utilizarão mais da implantação de PTU. Atualmente, esta calculadora assume um único valor de prompt para cargas de trabalho com grande variância. Recomendamos comparar sua implantação com seu tráfego para determinar a estimativa mais precisa de PTU necessária para sua implantação.

Depois de preencher os detalhes necessários, selecione o botão Calcular na coluna de saída.

Os valores na coluna de saída são o valor estimado das unidades de PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades de PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala de PTU mais próximo. O segundo valor de saída representa as unidades de PTU brutas estimadas necessárias para a carga de trabalho. Os totais de token são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Captura de ecrã da página inicial do Azure OpenAI Studio.

Nota

A calculadora de capacidade fornece uma estimativa com base em critérios de entrada simples. A maneira mais precisa de determinar sua capacidade é comparar uma implantação com uma carga de trabalho representacional para seu caso de uso.

Compreender o Modelo de Compra de Débito Aprovisionado

As Provisões Provisionadas e Globais do Azure OpenAI são adquiridas sob demanda a cada hora com base no número de PTUs implantadas, com desconto de prazo substancial disponível por meio da compra de Reservas do Azure.

O modelo por hora é útil para necessidades de implantação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela Reserva do Azure para o Azure OpenAI Provisionado e o Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo encontrará um modelo reservado como uma proposta de valor melhor.

Nota

Os clientes provisionados do Azure OpenAI integrados antes da atualização de autoatendimento de agosto usam um modelo de compra chamado modelo de compromisso. Estes clientes podem continuar a utilizar este modelo de compra mais antigo juntamente com o modelo de compra por hora/reserva. O modelo de Compromisso não está disponível para novos clientes. Para obter detalhes sobre o modelo de compra de compromisso e as opções de coexistência e migração, consulte a Atualização de agosto provisionada do Azure OpenAI.

Utilização Horária

As implantações provisionadas e provisionadas globais são cobradas uma taxa por hora ($/PTU/hr) sobre o número de PTUs que foram implantadas.  Por exemplo, uma implantação de 300 PTU será cobrada a taxa horária vezes 300.  Todos os preços do Azure OpenAI estão disponíveis na Calculadora de Preços do Azure.

Se uma implantação existir por uma hora parcial, ela receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante a hora.  Por exemplo, uma implantação que existe por 15 minutos durante uma hora receberá 1/4 da carga horária. 

Se o tamanho da implantação for alterado, os custos da implantação serão ajustados para corresponder ao novo número de PTUs.

Um diagrama mostrando o faturamento por hora.

Pagar por implantações provisionadas e globais por hora é ideal para cenários de implantação de curto prazo.  Por exemplo: benchmarking de qualidade e desempenho de novos modelos ou aumento temporário da capacidade da PTU para cobrir um evento como um hackathon. 

No entanto, os clientes que exigem o uso de longo prazo de implantações provisionadas provisionadas e globais podem pagar significativamente menos por mês comprando um desconto de prazo por meio de uma Reserva do Azure, conforme discutido na próxima seção.

Nota

Não é recomendado escalar implantações de produção de acordo com o tráfego de entrada e pagá-las apenas por hora. Existem duas razões para tal:

  • As economias de custos obtidas com a compra de uma Reserva do Azure para o Azure OpenAI Provisionado são significativas e, em muitos casos, será menos dispendioso manter uma implantação dimensionada para o volume total de produção pago por meio de uma reserva do que escalar a implantação com o tráfego de entrada.
  • Ter cotas provisionadas (PTUs) não utilizadas não garante que a capacidade estará disponível para suportar o aumento do tamanho da implantação quando necessário. A quota limita o número máximo de PTU que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modal muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Como resultado, recomenda-se manter uma implantação permanente para cobrir suas necessidades de tráfego (pago por meio de uma reserva).
  • As cobranças por implantações em um recurso excluído continuarão até que o recurso seja limpo. Para evitar isso, exclua a implantação de um recurso antes de excluí-lo. Para obter mais informações, consulte Recuperar ou limpar recursos excluídos dos serviços de IA do Azure.

Reservas do Azure para Azure OpenAI provisionado e provisionado global

Descontos além do preço de uso por hora podem ser obtidos comprando uma Reserva do Azure para o Azure OpenAI Provisionado e Global Provisionado. Uma Reserva do Azure é um mecanismo de desconto de prazo compartilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para Azure OpenAI Provisioned e Global Provisioned, a reserva fornece um desconto para se comprometer com o pagamento de um número fixo de PTUs por um período de um mês ou um ano. 

  • As Reservas do Azure são compradas por meio do portal do Azure, não do Azure OpenAI Studio Link para o portal de reservas do Azure.

  • As reservas são compradas regionalmente e podem ter um escopo flexível para cobrir o uso de um grupo de implantações. Os escopos de reserva incluem:

    • Grupos de recursos individuais ou subscrições

    • Um grupo de assinaturas em um Grupo de Gerenciamento

    • Todas as subscrições numa conta de faturação

  • Novas reservas podem ser adquiridas para cobrir o mesmo escopo das reservas existentes, para permitir o desconto de novas implantações provisionadas. O âmbito das reservas existentes também pode ser atualizado a qualquer momento sem penalizações, por exemplo, para cobrir uma nova subscrição.

  • As reservas podem ser canceladas após a compra, mas os créditos são limitados.

  • Se o tamanho das implantações provisionadas no escopo de uma reserva exceder o valor da reserva, o excesso será cobrado na taxa horária. Por exemplo, se existirem implantações no valor de 250 PTUs no âmbito de uma reserva de 200 PTU, 50 PTUs serão cobradas por hora até que os tamanhos de implantação sejam reduzidos para 200 PTUs ou uma nova reserva seja criada para cobrir as 50 restantes.

  • As reservas garantem um preço com desconto para o prazo selecionado.  Eles não reservam capacidade no serviço nem garantem que ele estará disponível quando uma implantação for criada. É altamente recomendável que os clientes criem implantações antes de comprar uma reserva para evitar a compra excessiva de uma reserva.

Importante

  • A disponibilidade de capacidade para implantações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para evitar que você compre uma reserva para mais PTUs do que você pode usar, crie implantações primeiro e, em seguida, compre a Reserva do Azure para cobrir as PTUs que você implantou. Esta prática recomendada garantirá que você possa aproveitar ao máximo o desconto da reserva e evitar que você adquira um compromisso de prazo que você não pode usar.

  • Os requisitos de política de locatário e função do Azure para comprar uma reserva são diferentes daqueles necessários para criar uma implantação ou recurso do Azure OpenAI. Verifique a autorização para comprar reservas antes de precisar fazê-lo. Consulte a documentação de reserva do Azure OpenAI Provisioned para obter mais detalhes.

Importante: Dimensionando reservas provisionadas do Azure OpenAI ou reservas provisionadas globais

Os montantes de PTU nas compras de reserva são independentes dos PTU atribuídos em quota ou utilizados em implantações. É possível comprar uma reserva para mais PTUs do que você tem na cota, ou pode implantar para a região, modelo ou versão desejada. Os créditos por excesso de compra de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantêm seus tamanhos de reserva de acordo com suas PTUs implantadas.

A prática recomendada é sempre comprar uma reserva após as implantações terem sido criadas. Isso evita a compra de uma reserva e, em seguida, descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

Para ajudar os clientes a comprar os valores corretos de reserva. O número total de PTUs em uma assinatura e região que podem ser cobertas por uma reserva estão listados na página Cotas do Azure OpenAI Studio. Consulte a mensagem "PTUs disponíveis para reserva".

Uma captura de tela mostrando a cota de PTU disponível.

Gerir Reservas do Azure

Depois que uma reserva é criada, é uma prática recomendada monitorá-la para garantir que ela esteja recebendo o uso esperado. Isso pode ser feito por meio do Portal de Reservas do Azure ou do Azure Monitor. Detalhes sobre estes e outros tópicos podem ser encontrados aqui:

Próximos passos