Início Rápido: Introdução ao uso do GPT-4 Turbo with Vision em suas imagens e vídeos no Estúdio de IA do Azure

Artigo
09/03/2024

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Use este artigo para começar a usar o Estúdio de IA do Azure para implantar e testar o modelo GPT-4 Turbo with Vision.

O GPT-4 Turbo with Vision e a Visão de IA do Azure oferecem funcionalidade avançada, incluindo:

OCR (reconhecimento óptico de caracteres): extrai texto de imagens e o combina com o prompt e a imagem do usuário para expandir o contexto.
Aterramento de objeto: complementa a resposta de texto GPT-4 Turbo with Vision com aterramento de objeto e estrutura objetos salientes nas imagens de entrada.
Prompts de vídeo: o GPT-4 Turbo with Vision pode responder perguntas recuperando os quadros de vídeo mais relevantes para o prompt do usuário.

As taxas de uso extras podem ser aplicadas ao uso do GPT-4 Turbo com Vision com a funcionalidade da Visão de IA do Azure.

Pré-requisitos

Uma assinatura do Azure – Crie uma gratuitamente.
Depois de obter sua assinatura do Azure, crie um recurso do OpenAI do Azure.
Um Hub do Estúdio de IA com o recurso do seu OpenAI do Azure adicionado como uma conexão.

Prepare sua mídia

Você precisa de uma imagem para concluir os inícios rápidos da imagem. Você pode usar essa imagem de exemplo ou qualquer outra imagem disponível.

Quanto às solicitações de vídeo, você precisa de um vídeo com menos de três minutos de duração.

Implantar um modelo GPT-4 Turbo com Visão

Entre no Estúdio de IA do Azure e selecione o hub no qual você deseja trabalhar.
No menu de navegação à esquerda, selecione Serviços de IA. Selecione o painel Experimentar o GPT-4 Turbo.
Na página gpt-4, selecione Implantar. Na janela exibida, selecione o recurso de OpenAI do Azure. Selecione vision-preview como a versão do modelo.
Selecione Implantar.
Em seguida, vá para a página do novo modelo e selecione Abrir no playground. No playground de chat, a implantação do GPT-4 que você criou deve ser selecionada na lista suspensa Implantação.

Nesta sessão de chat, instrua o assistente a ajudar no reconhecimento das imagens que você insere.

Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário.
Selecione Aplicar alterações para salvar suas alterações.
No painel de sessão de chat, selecione o botão anexo e Carregar imagem. Escolha sua imagem.
Adicione a seguinte pergunta no campo de chat: "Describe this image", e selecione o ícone de seta para a direita a ser enviado.
O ícone de seta para a direita é substituído pelo botão Parar. Se você selecioná-lo, o assistente interromperá o processamento da sua solicitação. Para este início rápido, deixe o assistente concluir sua resposta.
O assistente responde com uma descrição da imagem.
Faça uma pergunta de acompanhamento relacionada à análise de sua imagem. Você pode entrar, "What should I highlight about this image to my insurance company?".

Você deve receber uma resposta relevante semelhante à mostrada aqui:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

Nesta sessão de chat, instrua o assistente a ajudar no reconhecimento das imagens que você insere. Experimente os recursos do modelo de visão aumentada.

No painel Aprimoramentos no lado esquerdo da janela de chat, ative a opção para Visão. Na janela exibida, selecione o recurso da Pesquisa Visual Computacional do Azure.
Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário. Selecione Aplicar alterações para salvar suas alterações.
No painel de sessão de chat, selecione o botão anexo e Carregar imagem. Escolha sua imagem.
Adicione a seguinte pergunta no campo de chat: "Describe this image", e selecione o ícone de seta para a direita a ser enviado.
O ícone de seta para a direita é substituído pelo botão Parar. Se você selecioná-lo, o assistente interromperá o processamento da sua solicitação. Para este início rápido, deixe o assistente concluir sua resposta.
O assistente responde com uma descrição da imagem. Ele usa o serviço de Visão de IA do Azure para extrair mais detalhes da imagem que você carregou.
Faça uma pergunta de acompanhamento relacionada à análise de sua imagem. Insira, "What should I highlight about this image to my insurance company?" e selecione o ícone de seta para a direita a ser enviado.

Você deve receber uma resposta relevante semelhante à mostrada aqui:

When reporting the incident to your insurance company, you should highlight the following key points from the image:  

1. **Location of Damage**: Clearly state that the front end of the car, particularly the driver's side, is damaged. Mention the crumpled hood, broken front bumper, and the damaged left headlight.  

2. **Point of Impact**: Indicate that the car has collided with a guardrail, which may suggest that no other vehicles were involved in the accident.  

3. **Condition of the Car**: Note that the damage seems to be concentrated on the front end, and there is no visible damage to the windshield or rear of the car from this perspective.  

4. **License Plate Visibility**: Mention that the license plate is intact and can be used for identification purposes.  

5. **Environment**: Report that the accident occurred near a roadside with a guardrail, possibly in a rural or semi-rural area, which might help in establishing the accident location and context.  

6. **Other Observations**: If there were any other circumstances or details not visible in the image that may have contributed to the accident, such as weather conditions, road conditions, or any other relevant information, be sure to include those as well.  

Remember to be factual and descriptive, avoiding speculation about the cause of the accident, as the insurance company will conduct its own investigation.

Nesta sessão de chat, você está instruindo o assistente a ajudar a entender os vídeos que você inseriu. O assistente extrai vários quadros do vídeo e os usa para responder suas perguntas.

No painel Aprimoramentos no lado esquerdo da janela de chat, ative a opção para Visão. Na janela exibida, selecione o recurso da Pesquisa Visual Computacional do Azure.
Na caixa de texto Mensagem do sistema na guia Mensagem do sistema, forneça este prompt para orientar o assistente: "You're an AI assistant that helps people find information." Você pode adaptar o prompt à sua imagem ou cenário.
Selecione Aplicar alterações para salvar suas alterações.
No painel de sessão de chat, selecione o botão anexo e Carregar vídeo. Escolha seu vídeo.
Insira um prompt de texto como, "Provide details about this video", e selecione o ícone de seta para a direita a ser enviado.
O ícone de seta para a direita é substituído pelo botão Parar. Se você selecioná-lo, o assistente interromperá o processamento da sua solicitação. Para este início rápido, deixe o assistente concluir sua resposta.
O assistente deve responder com uma descrição do vídeo.
Fique à vontade para fazer perguntas de acompanhamento relacionadas à análise do vídeo.

Limitações

Abaixo estão as limitações conhecidas dos aprimoramentos de prompt de vídeo.

Baixa resolução: os quadros são analisados usando a configuração de “baixa resolução” do GPT-4 Turbo with Vision, o que pode afetar a precisão do reconhecimento de texto e objeto pequeno no vídeo.
Limites de arquivo de vídeo: há suporte para tipos de arquivo MP4 e MOV. No Playground do Estúdio de IA do Azure, os vídeos devem ter menos de 3 minutos de duração. Quando você usa a API, não há essa limitação.
Limites de prompt: as solicitações de vídeo contêm apenas um vídeo e nenhuma imagem. Em Playground, você pode limpar a sessão para experimentar outro vídeo ou imagens.
Seleção de quadro limitada: atualmente, o serviço seleciona 20 quadros de todo o vídeo, o que pode não capturar todos os momentos ou detalhes críticos. A seleção de quadros pode ser distribuída uniformemente pelo vídeo ou focada por uma consulta específica de Recuperação de Vídeo, dependendo do prompt.
Suporte ao idioma: atualmente, o sistema dá suporte principalmente ao inglês para aterramento com transcrições. As transcrições não fornecem informações precisas sobre letras de músicas.

Exibir e exportar os dados

Em qualquer momento da sessão de chat, você pode habilitar a opção Mostrar JSON bruto na parte superior da janela de chat para ver a conversa formatada como JSON. Esta é a aparência no início da sessão de chat de início rápido:

[
	{
		"role": "system",
		"content": [
			"You are an AI assistant that helps people find information."
		]
	},
]

Limpar os recursos

Para evitar gerar custos desnecessários no Azure, exclua os recursos criados neste início rápido, caso eles não sejam mais necessários. Para gerenciar os recursos, use o portal do Azure.

Próximas etapas

Criar um projeto
Saiba mais sobre o Estúdio de IA do Azure.
Saiba mais sobre os modelos do OpenAI do Azure.

Compartilhar via