API Realtime do GPT-4o para fala e áudio (versão prévia)
A API Realtime do GPT-4o do OpenAI do Azure para fala e áudio faz parte da família de modelos GPT-4o que oferece suporte a interações conversacionais de baixa latência, do tipo "fala de entrada, fala de saída". A API de áudio GPT-4o realtime
foi projetada para lidar com interações conversacionais de baixa latência e em tempo real, o que a torna ideal para casos de uso que envolvem interações ao vivo entre um usuário e um modelo, como agentes de suporte ao cliente, assistentes de voz e tradutores em tempo real.
A maioria dos usuários da API Realtime precisa enviar e receber áudio de um usuário final em tempo real, incluindo aplicativos que utilizam WebRTC ou um sistema de telefonia. A API Realtime não foi projetada para se conectar diretamente a dispositivos de usuários finais e depende de integrações de cliente para finalizar os fluxos de áudio dos usuários finais.
Modelos com suporte
Atualmente, apenas a versão gpt-4o-realtime-preview
: 2024-10-01-preview
dá suporte a áudio em tempo real.
O modelo gpt-4o-realtime-preview
está disponível para implantações globais nas regiões Leste dos EUA 2 e Suécia Central.
Importante
O sistema armazena seus prompts e respostas conforme descrito na seção "Uso e acesso de dados para monitoramento de abusos" dos Termos de Produto específicos do Serviço OpenAI do Azure, exceto que a Exceção Limitada não se aplica. O monitoramento de abusos será ativado para uso da API gpt-4o-realtime-preview
, mesmo para clientes que, de outra forma, estão aprovados para monitoramento de abusos modificado.
Suporte a API
O suporte para a API Realtime foi adicionado pela primeira vez na versão 2024-10-01-preview
da API.
Observação
Para obter mais informações sobre a API e a arquitetura, consulte o repositório de áudio em tempo real do GPT-4o do OpenAI do Azure no GitHub.
Pré-requisitos
- Uma assinatura do Azure – Crie uma gratuitamente.
- Um recurso do OpenAI do Azure criado em uma região com suporte. Para obter mais informações, consulte Criar um recurso e implantar um modelo com o Azure OpenAI.
Implantar um modelo para áudio em tempo real
Antes de usar o áudio em tempo real do GPT-4o, você precisa de uma implantação do modelo gpt-4o-realtime-preview
em uma região com suporte, conforme descrito na seção de modelos com suporte.
Você pode implantar o modelo do catálogo de modelos do Estúdio de IA do Azure ou do seu projeto no Estúdio de IA. Siga estas etapas para implantar um modelo gpt-4o-realtime-preview
do catálogo de modelos:
- Entre no Estúdio de IA e vá para a Página inicial.
- Selecione Catálogo de modelos na barra lateral esquerda.
- Pesquise e selecione o modelo
gpt-4o-realtime-preview
da coleção do OpenAI do Azure. - Selecione Implantar para abrir a janela de implantação.
- Insira um nome para a implantação e selecione um recurso do OpenAI do Azure.
- Selecione
2024-10-01
na lista suspensa Versão do modelo. - Modifique outras configurações padrão, dependendo de seus requisitos.
- Selecione Implantar. Você chegará à página de detalhes da implantação.
Agora que você tem uma implantação do modelo gpt-4o-realtime-preview
, pode usar o playground de áudio em tempo real do Estúdio de IA ou a API Realtime para interagir com ele em tempo real.
Use o áudio em tempo real do GPT-4o
Dica
Neste momento, a maneira mais rápida de começar a desenvolver com a API Realtime do GPT-4o é baixar o código de exemplo do Repositório de áudio em tempo real GPT-4o do OpenAI do Azure no GitHub.
Para conversar com seu modelo gpt-4o-realtime-preview
implantado no playground de áudio em tempo real do Estúdio de IA do Azure, siga essas etapas:
Vá para o seu projeto no Estúdio de IA do Azure.
Selecione Playgrounds>Áudio em tempo real no painel do lado esquerdo.
Selecione o modelo
gpt-4o-realtime-preview
implantado na lista de seleção Implantação.Selecione Habilitar microfone para permitir que o navegador acesse seu microfone. Se você já concedeu permissão, pode pular esta etapa.
Opcionalmente, você pode editar o conteúdo na caixa Dê instruções e contexto ao modelo. Forneça ao modelo instruções sobre como ele deve se comportar e qualquer contexto que ele deve referenciar ao gerar uma resposta. Você pode descrever a personalidade do assistente, dizer a ele o que ele deve ou não responder e como formatar as respostas.
Se quiser, altere as configurações, como limite, preenchimento de prefixo e duração do silêncio.
Selecione Começar a ouvir para iniciar a sessão. Você pode falar no microfone para iniciar um chat.
Você pode interromper o chat a qualquer momento, falando. Você pode encerrar o chat selecionando o botão Parar de ouvir.
O exemplo da Web em JavaScript demonstra como usar a API Realtime do GPT-4o para interagir com o modelo em tempo real. O código de exemplo inclui uma interface da Web simples que captura áudio do microfone do usuário e o envia para o modelo para processamento. O modelo responde com texto e áudio, que o código de exemplo renderiza na interface da Web.
Você pode executar o código de exemplo localmente em seu computador seguindo estas etapas. Consulte o repositório no GitHub para obter as instruções mais atualizadas.
Se você não tiver o Node.js instalado, baixe e instale a versão LTS do Node.js.
Clone o repositório em seu computador local:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Vá para a pasta
javascript/samples/web
no editor de código de sua preferência.cd ./javascript/samples
Execute
download-pkg.ps1
oudownload-pkg.sh
para baixar os pacotes necessários.Vá para a pasta
web
da pasta./javascript/samples
.cd ./web
Execute
npm install
para instalar as dependências do pacote.Execute
npm run dev
para iniciar o servidor Web, navegando por quaisquer solicitações de permissão de firewall, conforme necessário.Vá para qualquer uma das URIs fornecidas da saída do console (como
http://localhost:5173/
) em um navegador.Insira as seguintes informações na interface da Web:
- Ponto de extremidade: o ponto de extremidade do recurso de um recurso do OpenAI do Azure. Você não precisa acrescentar o caminho
/realtime
. Uma estrutura de exemplo pode serhttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Chave de API: uma chave de API correspondente para o recurso do OpenAI do Azure.
- Implantação: o nome do modelo
gpt-4o-realtime-preview
que você implantou na seção anterior. - Mensagem do sistema: opcionalmente, você pode fornecer uma mensagem do sistema como "Você sempre fala como um pirata amigável".
- Temperatura: opcionalmente, você pode fornecer uma temperatura personalizada.
- Voz: opcionalmente, você pode selecionar uma voz.
- Ponto de extremidade: o ponto de extremidade do recurso de um recurso do OpenAI do Azure. Você não precisa acrescentar o caminho
Selecione o botão Gravar para iniciar a sessão. Aceite as permissões para usar o microfone, caso seja solicitado.
Você deve ver uma mensagem
<< Session Started >>
na saída principal. Em seguida, você pode falar no microfone para iniciar um chat.Você pode interromper o chat a qualquer momento, falando. Você pode encerrar o chat selecionando o botão Parar.
Conteúdo relacionado
- Saiba mais sobre os tipos de implantação do OpenAI do Azure
- Saiba mais sobre as cotas e limites do OpenAI do Azure