Visão geral: implantar modelos de IA no IA do Azure Studio

O catálogo de modelos no IA do Azure Studio é o centro para descobrir e usar uma ampla variedade de modelos para criar aplicativos de IA generativos. Os modelos precisam ser implantados para ficarem disponíveis para receber solicitações de inferência. O processo de interação com um modelo implantado é chamado inferência. O IA do Azure Studio oferece um conjunto abrangente de opções de implantação para esses modelos, dependendo de suas necessidades e requisitos de modelo.

Implantando modelos

As opções de implantação variam dependendo do tipo de modelo:

  • Modelos do Azure OpenAI: os modelos OpenAI mais recentes que têm recursos empresariais do Azure.
  • Modelos como serviço: esses modelos não exigem cota de computação da sua assinatura. Essa opção permite que você implante seu Modelo como Serviço (MaaS). Você usa uma implantação de API sem servidor e é cobrado por token de forma paga conforme o uso.
  • Modelos abertos e personalizados: O catálogo de modelos oferece acesso a uma grande variedade de modelos em modalidades de acesso aberto. Você pode hospedar modelos abertos em sua própria assinatura com uma infraestrutura gerenciada, máquinas virtuais e o número de instâncias para gerenciamento de capacidade. Há uma ampla gama de modelos do Serviço OpenAI do Azure, Hugging Face e NVIDIA.

O IA do Azure Studio oferece quatro opções de implantação diferentes:

Nome Serviço OpenAI do Azure Serviço de inferência de modelo de IA do Azure API sem servidor Computação gerenciada
Quais modelos podem ser implantados? Modelos do OpenAI do Azure Modelos Azure OpenAI e Modelos como Serviço Modelos como um serviço Modelos abertos e personalizados
Recurso de implantação Serviço OpenAI do Azure Serviços de IA do Azure Projeto de IA Projeto de IA
Mais adequado quando Você está planejando usar apenas modelos OpenAI Você está planejando aproveitar os principais modelos do catálogo de IA do Azure, incluindo o OpenAI. Você está planejando usar um único modelo de um provedor específico (excluindo OpenAI). Se você planeja usar modelos abertos e tem cota de computação suficiente disponível em sua assinatura.
Bases de faturamento Uso de token Uso de token Uso de token1 Horas de núcleo de computação2
Instruções de implantação Implantar no Serviço OpenAI do Azure Implantar na inferência do modelo de IA do Azure Implantar na API sem servidor Implantar no Computação Gerenciada

1 Uma infraestrutura mínima de ponto de extremidade é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo no pagamento conforme o uso. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.

2 A cobrança é por minuto, dependendo da camada do produto e do número de instâncias usadas na implantação desde o momento da criação. Depois de excluir o ponto de extremidade, nenhum encargo adicional será acumulado.

Dica

Para saber mais sobre como acompanhar os custos, consulte Monitorar os custos dos modelos oferecidos por meio do Azure Marketplace.

Como devo pensar sobre opções de implantação?

O IA do Azure Studio incentiva os clientes a explorar as opções de implantação e escolher aquela que melhor atende às suas necessidades comerciais e técnicas. Em geral, você pode usar o seguinte processo de pensamento:

  1. Comece com as opções de implantação que têm escopos maiores. Isso permite que você itere e prototipe mais rapidamente em seu aplicativo sem ter que reconstruir sua arquitetura toda vez que decidir mudar algo. O serviço de inferência de modelo de IA do Azure é um destino de implantação que oferece suporte a todos os modelos principais no catálogo de IA do Azure, incluindo a inovação mais recente do Azure OpenAI.

  2. Quando você estiver procurando usar um modelo específico:

    1. Quando estiver interessado em modelos OpenAI, use o Serviço OpenAI do Azure, que oferece uma ampla variedade de recursos para eles e foi projetado para eles.

    2. Quando você estiver interessado em um modelo específico do Models as a Service e não espera usar nenhum outro tipo de modelo, use Pontos de extremidade de API sem servidor. Eles permitem a implantação de um único modelo sob um conjunto exclusivo de URL de ponto de extremidade e chaves.

  3. Quando seu modelo não estiver disponível no Models as a Service e você tiver cota de computação disponível em sua assinatura, use o Computação Gerenciada, que oferece suporte à implantação de modelos abertos e personalizados. Ele também permite alto nível de personalização do servidor de inferência de implantação, protocolos e configuração detalhada.

Dica

Cada opção de implantação pode oferecer diferentes recursos em termos de rede, segurança e recursos adicionais, como segurança de conteúdo. Revise a documentação de cada um deles para entender suas limitações.