Classificação de imagens no Azure

Azure Blob Storage
Azure Computer Vision
Azure Cosmos DB
Azure Event Grid
Azure Functions

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.

Ao usar os serviços do Azure, como a API de Visão Computacional e o Azure Functions, as empresas podem eliminar a necessidade de gerenciar servidores individuais, reduzindo custos e utilizando a experiência que a Microsoft já desenvolveu com o processamento de imagens com serviços de IA do Azure. Esta ideia de solução aborda especificamente um caso de uso de processamento de imagem. Se você tiver necessidades de IA diferentes, considere o conjunto completo de serviços de IA do Azure.

Arquitetura

Diagrama de uma arquitetura para uso para tarefas de classificação de imagens.

Transfira um ficheiro Visio desta ideia de solução.

Fluxo de dados

Este cenário abrange os componentes de back-end de um aplicativo Web ou móvel. Os dados fluem através do cenário da seguinte maneira:

  1. Adicionar novos arquivos (carregamentos de imagem) no armazenamento de Blob dispara um evento na Grade de Eventos do Azure. O processo de upload pode ser orquestrado através da web ou de uma aplicação móvel. Como alternativa, as imagens podem ser carregadas separadamente no armazenamento de Blob do Azure.
  2. A Grade de Eventos envia uma notificação que aciona as funções do Azure.
  3. O Azure Functions chama a API do Azure AI Vision para analisar a imagem recém-carregada. O Azure AI Vision acede à imagem através do URL de blob analisado pelo Azure Functions.
  4. O Azure Functions persiste a resposta da API AI Vision no Azure Cosmos DB. Esta resposta inclui os resultados da análise, juntamente com os metadados da imagem.
  5. Os resultados podem ser consumidos e refletidos na web ou no front-end móvel. Observe que essa abordagem recupera os resultados da classificação, mas não a imagem carregada.

Componentes

  • O Azure AI Vision faz parte do pacote de serviços de IA do Azure e é usado para recuperar informações sobre cada imagem.
  • O Azure Functions fornece a API de back-end para o aplicativo Web. Esta plataforma também fornece processamento de eventos para imagens carregadas.
  • A Grade de Eventos do Azure dispara um evento quando uma nova imagem é carregada no armazenamento de blobs. Em seguida, a imagem é processada com o Azure Functions.
  • O Armazenamento de Blobs do Azure armazena todos os arquivos de imagem que são carregados no aplicativo Web, bem como todos os arquivos estáticos que o aplicativo Web consome.
  • O Azure Cosmos DB armazena metadados sobre cada imagem carregada, incluindo os resultados do processamento da API de Visão Computacional.

Alternativas

  • Azure OpenAI GPT-4 Turbo com Visão (pré-visualização). GPT-4 Turbo com Visão é um modelo multimodal que pode analisar imagens e responder a perguntas sobre elas.
  • Serviço de Visão Personalizado. A API de Visão Computacional retorna um conjunto de categorias baseadas em taxonomia. Se você precisar processar informações que não são retornadas pela API de Visão Computacional, considere o Serviço de Visão Personalizada, que permite criar classificadores de imagem personalizados.
  • Azure AI Search (anteriormente Azure Search). Se o seu caso de uso envolver a consulta aos metadados para localizar imagens que atendam a critérios específicos, considere usar o Azure AI Search. A pesquisa de IA do Azure integra perfeitamente este fluxo de trabalho.
  • Logic Apps. Se você não precisar reagir em tempo real em arquivos adicionados a um blob, considere usar aplicativos lógicos. Um aplicativo lógico que pode verificar se um arquivo foi adicionado pode ser iniciado pelo gatilho de recorrência ou pelo gatilho de janelas deslizantes.
  • Se você tiver imagens incorporadas em documentos, use o Azure AI Document Intelligence para localizar essas imagens. Com essas informações, você pode extrair e executar outras tarefas de visão computacional nas imagens incorporadas. Use o Document Intelligence para coletar dados sobre essas imagens incorporadas, como o número da página ou o texto da legenda, que podem ser armazenados junto com outros metadados das imagens recebidos por meio da API de Visão Computacional.

Detalhes do cenário

Esse cenário é relevante para empresas que precisam processar imagens.

As aplicações potenciais incluem a classificação de imagens para um site de moda, a análise de texto e imagens para reclamações de seguros ou a compreensão de dados de telemetria a partir de capturas de tela de jogos. Tradicionalmente, as empresas precisariam desenvolver experiência em modelos de aprendizado de máquina, treinar os modelos e, finalmente, executar as imagens através de seu processo personalizado para obter os dados das imagens.

Potenciais casos de utilização

Esta solução é ideal para os setores de varejo, jogos, finanças e seguros. Outros casos de uso relevantes incluem:

  • Classificação de imagens em um site de moda. A classificação de imagens pode ser usada pelos vendedores durante o upload de fotos de produtos na plataforma para venda. Eles podem, então, automatizar a consequente marcação manual envolvida. Os clientes também podem pesquisar através da impressão visual dos produtos.

  • Classificação de dados de telemetria a partir de capturas de tela de jogos. A classificação dos videojogos a partir de capturas de ecrã está a evoluir para um problema relevante nas redes sociais, aliado à visão computacional. Por exemplo, quando os streamers do Twitch jogam jogos diferentes em sequência, eles podem pular a atualização manual de suas informações de streaming. A não atualização das informações de fluxo pode resultar na classificação incorreta de fluxos nas pesquisas dos usuários e pode levar à perda de audiência potencial tanto para os criadores de conteúdo quanto para as plataformas de streaming. Ao introduzir novos jogos, uma rota de modelo personalizada pode ser útil para introduzir a capacidade de detetar novas imagens desses jogos.

  • Classificação de imagens para sinistros de seguros. A classificação de imagens pode ajudar a reduzir o tempo e o custo do processamento e subscrição de sinistros. Poderia ajudar a analisar danos causados por desastres naturais, danos em veículos e identificar propriedades residenciais e comerciais.

Próximos passos

Documentação do produto

Para um percurso de aprendizagem orientado, consulte:

Use o enriquecimento de IA com processamento de imagem e texto