Classificação de imagens no Azure

Armazenamento do Blobs do Azure
Pesquisa Visual Computacional do Azure
Azure Cosmos DB
Grade de Eventos do Azure
Funções do Azure

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe aos requisitos específicos de sua carga de trabalho.

Ao usar os serviços do Azure, como a API de Pesquisa Visual Computacional e o Azure Functions, as empresas podem eliminar a necessidade de gerenciar servidores individuais, reduzindo custos e utilizando a experiência que a Microsoft já desenvolveu com o processamento de imagens com os serviços de IA do Azure. Essa ideia de solução aborda especificamente um caso de uso de processamento de imagens. Se você tiver necessidades diferentes para Inteligência Artificial, considere obter o conjunto completo dos serviços de IA do Azure.

Arquitetura

Diagrama de uma arquitetura usada em tarefas de classificação de imagem.

Baixe um arquivo do Visio dessa ideia de solução.

Fluxo de dados

Esse cenário aborda os componentes de back-end de um aplicativo Web ou móvel. O fluxo de dados deste cenário ocorre da seguinte forma:

  1. A adição de novos arquivos (uploads de imagens) no Armazenamento de Blobs dispara um evento na Grade de Eventos do Azure. O processo de upload pode ser orquestrado pela Web ou por um aplicativo móvel. Como alternativa, as imagens podem ser carregadas separadamente para o Armazenamento de Blobs do Azure.
  2. A Grade de Eventos envia uma notificação que dispara o Azure Functions.
  3. O Azure Functions chama a API de Visão de IA do Azure para analisar a imagem recém-carregada. A Visão de IA do Azure acessa a imagem por meio da URL do blob analisada pelo Azure Functions.
  4. O Azure Functions mantém a resposta da API de Visão de IA no Azure Cosmos DB. Essa resposta inclui os resultados da análise, juntamente com os metadados da imagem.
  5. Os resultados podem ser consumidos e refletidos na Web ou no front-end móvel. Observe que essa abordagem recupera os resultados da classificação, mas não a imagem carregada.

Componentes

  • A Visão de IA do Azure faz parte do conjunto de serviços de IA do Azure e é usada para recuperar informações sobre cada imagem.
  • O Azure Functions fornece a API de back-end para o aplicativo Web. Essa plataforma também oferece processamento de eventos para imagens carregadas.
  • A Grade de Eventos do Azure dispara um evento quando uma nova imagem é carregada no armazenamento de blob. A imagem é processada com o Azure Functions.
  • O Armazenamento de Blobs do Azure armazena todos os arquivos de imagem que são carregados no aplicativo Web, bem como todos os arquivos estáticos que o aplicativo Web consome.
  • O Azure Cosmos DB armazena metadados sobre cada imagem que é carregada, incluindo os resultados do processamento da API de Pesquisa Visual Computacional.

Alternativas

  • Azure OpenAI GPT-4 Turbo com Visão (versão prévia). O GPT-4 Turbo com Visão é um modelo multimodal que pode analisar imagens e responder a perguntas sobre elas.
  • Serviço de Visão Personalizada. A API da Pesquisa Visual Computacional retorna um conjunto de categorias baseadas em taxonomia. Se você precisar processar informações que não são retornadas pela API da Pesquisa Visual Computacional, considere o Serviço de Visão Personalizada, que permite a criação de classificadores de imagem personalizados.
  • Pesquisa de IA do Azure (anteriormente Azure Search). Se o seu caso de uso envolve a consulta dos metadados para localizar imagens que atendam a critérios específicos, considere usar a Pesquisa de IA do Azure. A Pesquisa de IA do Azure integra esse fluxo de trabalho perfeitamente.
  • Aplicativos Lógicos. Se você não precisar reagir em tempo real em arquivos adicionados a um blob, é possível considerar o uso de Aplicativos Lógicos. Um aplicativo lógico que pode verificar se um arquivo foi adicionado pode ser iniciado pelo gatilho de recorrência ou pelo gatilho deslizante do Windows.
  • Se você tiver imagens incorporadas em documentos, use a IA do Azure para Informação de Documentos para localizar essas imagens. Com essas informações, você pode extrair e executar outras tarefas de pesquisa visual computacional nas imagens incorporadas. Use a Informação de Documentos para coletar dados sobre essas imagens incorporadas, como número de página ou texto de legenda, que podem ser armazenados junto com outros metadados das imagens recebidos por meio da API de Pesquisa Visual Computacional.

Detalhes do cenário

Esse cenário é relevante para empresas que precisam processar imagens.

Entre os possíveis usos estão a classificação de imagens para um site de moda, a análise de texto e imagens em acionamento de seguro ou a compreensão de dados de telemetria em capturas de tela de jogos. Tradicionalmente, as empresas precisariam desenvolver experiência em modelos de aprendizado de máquina, treinar os modelos e passar as imagens pelo processo personalizado para obter dados dessas imagens.

Possíveis casos de uso

Essa solução é ideal para os setores de varejo, jogos, finanças e seguros. Outros casos de uso relevantes incluem:

  • Classificar imagens em um site de moda. A classificação de imagens pode ser usada pelos vendedores ao carregarem imagens de produtos na plataforma de vendas. Eles podem, então, automatizar a consequente marcação manual envolvida. Os clientes também podem pesquisar por meio da impressão visual dos produtos.

  • Classificar dados de telemetria de capturas de tela de jogos. A classificação de videogames a partir de capturas de tela está evoluindo para um problema relevante nas mídia social, juntamente com a visão computacional. Por exemplo, quando os streamers da Twitch jogam diferentes jogos em sequência, eles podem deixar de atualizar manualmente de suas informações de streaming. A não atualização das informações de streaming pode resultar na classificação incorreta de streams nas pesquisas de usuários e pode levar à perda de visualizações em potencial tanto para os criadores de conteúdo e quanto para as plataformas de streaming. Ao introduzir novos jogos, uma rota de modelo personalizada poderia ser útil para introduzir a capacidade de detecção de novas imagens desses jogos.

  • Classificação de imagens no acionamento de um seguro. A classificação de imagens pode ajudar a reduzir o tempo e o custo do processamento e da subscrição de sinistros. Ela pode ajudar a analisar danos causados por desastres naturais, danos causados por veículos e identificar propriedades residenciais e comerciais.

Próximas etapas

Documentação do produto

Para obter um roteiro de aprendizagem guiada, consulte:

Use o Enriquecimento de IA com processamento de imagem e texto