API Realtime do GPT-4o para fala e áudio (versão prévia)

A API Realtime do GPT-4o do OpenAI do Azure para fala e áudio faz parte da família de modelos GPT-4o que oferece suporte a interações conversacionais de baixa latência, do tipo "fala de entrada, fala de saída". A API de áudio GPT-4o realtime foi projetada para lidar com interações conversacionais de baixa latência e em tempo real, o que a torna ideal para casos de uso que envolvem interações ao vivo entre um usuário e um modelo, como agentes de suporte ao cliente, assistentes de voz e tradutores em tempo real.

A maioria dos usuários da API Realtime precisa enviar e receber áudio de um usuário final em tempo real, incluindo aplicativos que utilizam WebRTC ou um sistema de telefonia. A API Realtime não foi projetada para se conectar diretamente a dispositivos de usuários finais e depende de integrações de cliente para finalizar os fluxos de áudio dos usuários finais.

Modelos com suporte

Atualmente, apenas a versão gpt-4o-realtime-preview: 2024-10-01-preview dá suporte a áudio em tempo real.

O modelo gpt-4o-realtime-preview está disponível para implantações globais nas regiões Leste dos EUA 2 e Suécia Central.

Importante

O sistema armazena seus prompts e respostas conforme descrito na seção "Uso e acesso de dados para monitoramento de abusos" dos Termos de Produto específicos do Serviço OpenAI do Azure, exceto que a Exceção Limitada não se aplica. O monitoramento de abusos será ativado para uso da API gpt-4o-realtime-preview, mesmo para clientes que, de outra forma, estão aprovados para monitoramento de abusos modificado.

Suporte a API

O suporte para a API Realtime foi adicionado pela primeira vez na versão 2024-10-01-preview da API.

Observação

Para obter mais informações sobre a API e a arquitetura, consulte o repositório de áudio em tempo real do GPT-4o do OpenAI do Azure no GitHub.

Pré-requisitos

Implantar um modelo para áudio em tempo real

Antes de usar o áudio em tempo real do GPT-4o, você precisa de uma implantação do modelo gpt-4o-realtime-preview em uma região com suporte, conforme descrito na seção de modelos com suporte.

Você pode implantar o modelo do catálogo de modelos do Estúdio de IA do Azure ou do seu projeto no Estúdio de IA. Siga estas etapas para implantar um modelo gpt-4o-realtime-preview do catálogo de modelos:

  1. Entre no Estúdio de IA e vá para a Página inicial.
  2. Selecione Catálogo de modelos na barra lateral esquerda.
  3. Pesquise e selecione o modelo gpt-4o-realtime-preview da coleção do OpenAI do Azure.
  4. Selecione Implantar para abrir a janela de implantação.
  5. Insira um nome para a implantação e selecione um recurso do OpenAI do Azure.
  6. Selecione 2024-10-01 na lista suspensa Versão do modelo.
  7. Modifique outras configurações padrão, dependendo de seus requisitos.
  8. Selecione Implantar. Você chegará à página de detalhes da implantação.

Agora que você tem uma implantação do modelo gpt-4o-realtime-preview, pode usar o playground de áudio em tempo real do Estúdio de IA ou a API Realtime para interagir com ele em tempo real.

Use o áudio em tempo real do GPT-4o

Dica

Neste momento, a maneira mais rápida de começar a desenvolver com a API Realtime do GPT-4o é baixar o código de exemplo do Repositório de áudio em tempo real GPT-4o do OpenAI do Azure no GitHub.

Para conversar com seu modelo gpt-4o-realtime-preview implantado no playground de áudio em tempo real do Estúdio de IA do Azure, siga essas etapas:

  1. Vá para o seu projeto no Estúdio de IA do Azure.

  2. Selecione Playgrounds>Áudio em tempo real no painel do lado esquerdo.

  3. Selecione o modelo gpt-4o-realtime-preview implantado na lista de seleção Implantação.

  4. Selecione Habilitar microfone para permitir que o navegador acesse seu microfone. Se você já concedeu permissão, pode pular esta etapa.

    Captura de tela do playground de áudio em tempo real com o modelo implantado selecionado.

  5. Opcionalmente, você pode editar o conteúdo na caixa Dê instruções e contexto ao modelo. Forneça ao modelo instruções sobre como ele deve se comportar e qualquer contexto que ele deve referenciar ao gerar uma resposta. Você pode descrever a personalidade do assistente, dizer a ele o que ele deve ou não responder e como formatar as respostas.

  6. Se quiser, altere as configurações, como limite, preenchimento de prefixo e duração do silêncio.

  7. Selecione Começar a ouvir para iniciar a sessão. Você pode falar no microfone para iniciar um chat.

    Captura de tela do playground de áudio em tempo real com o botão

  8. Você pode interromper o chat a qualquer momento, falando. Você pode encerrar o chat selecionando o botão Parar de ouvir.

O exemplo da Web em JavaScript demonstra como usar a API Realtime do GPT-4o para interagir com o modelo em tempo real. O código de exemplo inclui uma interface da Web simples que captura áudio do microfone do usuário e o envia para o modelo para processamento. O modelo responde com texto e áudio, que o código de exemplo renderiza na interface da Web.

Você pode executar o código de exemplo localmente em seu computador seguindo estas etapas. Consulte o repositório no GitHub para obter as instruções mais atualizadas.

  1. Se você não tiver o Node.js instalado, baixe e instale a versão LTS do Node.js.

  2. Clone o repositório em seu computador local:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Vá para a pasta javascript/samples/web no editor de código de sua preferência.

    cd ./javascript/samples
    
  4. Execute download-pkg.ps1 ou download-pkg.sh para baixar os pacotes necessários.

  5. Vá para a pasta web da pasta ./javascript/samples.

    cd ./web
    
  6. Execute npm install para instalar as dependências do pacote.

  7. Execute npm run dev para iniciar o servidor Web, navegando por quaisquer solicitações de permissão de firewall, conforme necessário.

  8. Vá para qualquer uma das URIs fornecidas da saída do console (como http://localhost:5173/) em um navegador.

  9. Insira as seguintes informações na interface da Web:

    • Ponto de extremidade: o ponto de extremidade do recurso de um recurso do OpenAI do Azure. Você não precisa acrescentar o caminho /realtime. Uma estrutura de exemplo pode ser https://my-azure-openai-resource-from-portal.openai.azure.com.
    • Chave de API: uma chave de API correspondente para o recurso do OpenAI do Azure.
    • Implantação: o nome do modelo gpt-4o-realtime-preview que você implantou na seção anterior.
    • Mensagem do sistema: opcionalmente, você pode fornecer uma mensagem do sistema como "Você sempre fala como um pirata amigável".
    • Temperatura: opcionalmente, você pode fornecer uma temperatura personalizada.
    • Voz: opcionalmente, você pode selecionar uma voz.
  10. Selecione o botão Gravar para iniciar a sessão. Aceite as permissões para usar o microfone, caso seja solicitado.

  11. Você deve ver uma mensagem << Session Started >> na saída principal. Em seguida, você pode falar no microfone para iniciar um chat.

  12. Você pode interromper o chat a qualquer momento, falando. Você pode encerrar o chat selecionando o botão Parar.