Visão geral do Indexador de Vídeo da IA do Azure
O Azure AI Video Indexer é um aplicativo de nuvem, parte dos serviços de IA do Azure, criado em serviços de IA do Azure (como Detecção Facial, Tradutor, Visão de IA do Azure e Fala). Ele permite que você extraia insights dos seus vídeos usando os modelos de vídeo e áudio do Azure AI Video Indexer.
O Azure AI Video Indexer analisa o conteúdo de vídeo e áudio executando mais de 30 modelos de IA, gerando insights valiosos. Abaixo está uma ilustração da análise de áudio e vídeo realizada pelo Indexador de Vídeo da IA do Azure em segundo plano:
Para começar a extrair insights com o Indexador de Vídeo da IA do Azure, consulte a seção como posso começar.
O que posso fazer com o Azure AI Video Indexer?
Os insights do Azure AI Video Indexer podem ser aplicados a muitos cenários:
- Pesquisa avançada: Use os insights extraídos do vídeo para aprimorar a experiência de pesquisa em uma biblioteca de vídeos. Por exemplo, a indexação das palavras faladas e faces pode habilitar a experiência de pesquisa para localizar momentos em um vídeo em que pessoa falou certas palavras ou quando duas pessoas foram vistas junto. A pesquisa com base em tais informações de vídeos é aplicável a agências de notícias, instituições de ensino, emissoras, proprietários de conteúdo de entretenimento, aplicativos de linha de negócios e, em geral, a qualquer setor que tenha uma biblioteca de vídeos que os usuários precisam pesquisar.
- Criação de conteúdo: crie trailers, melhores momentos, conteúdo de mídia social ou clipes de notícias com base nos insights que o Azure AI Video Indexer extrai do seu conteúdo. Quadros-chave, marcadores de cenas, carimbos de data/hora das pessoas e aparências de rótulo tornam o processo de criação mais tranquilo e fácil, permitindo facilmente obter as partes do vídeo que você precisa ao criar conteúdo.
- Acessibilidade: se você quiser disponibilizar seu conteúdo para pessoas com deficiência ou se quiser que seu conteúdo seja distribuído para diferentes regiões usando diferentes idiomas, poderá usar a transcrição e a tradução fornecidas pelo Azure AI Video Indexer em vários idiomas.
- Monetização: O Azure AI Video Indexer pode ajudar a aumentar o valor dos vídeos. Por exemplo, setores que dependem da receita de anúncios (mídia de notícias, redes sociais e outros) podem fornecer anúncios relevantes usando os insights extraídos como sinais adicionais para o servidor de anúncios.
- Moderação de conteúdo: Use modelos de moderação de conteúdo visual e textual para manter seus usuários protegidos contra conteúdo inadequado e validar que o conteúdo publicado por você corresponde aos valores da sua organização. Você pode bloquear automaticamente determinados vídeos ou alertar os usuários sobre o conteúdo.
- Recomendações: Os insights do vídeo podem ser usados para melhorar a participação do usuário destacando os momentos do vídeo relevantes para os usuários. Ao marcar cada vídeo com metadados adicionais, você poderá recomendar os vídeos mais relevantes e realçar as partes do vídeo que corresponderão às necessidades dos seus usuários.
Recursos de IA de vídeo/áudio
A lista a seguir mostra os insights que você pode recuperar dos seus arquivos de vídeo/áudio usando os recursos (modelos) de IA de vídeo e áudio do Azure AI Video Indexer.
Observação
Dados os requisitos regulamentares e de privacidade, alguns desses recursos têm uso restrito e/ou exigem autorização para utilização total.
A menos que especificado de outra forma, um modelo está em disponibilidade geral.
Modelos de vídeo
Detecção facial: Detecta e agrupa rostos que aparecem no vídeo.
Identificação de celebridade: identifica mais de 1 milhão de celebridades, como líderes mundiais, atores, artistas, atletas, pesquisadores, líderes dos negócios e do setor de tecnologia em todo o mundo. Os dados sobre esses celebridades também podem ser encontrados em vários sites (IMDB, Wikipédia etc.).
Identificação facial baseada em conta: treina um modelo para uma conta específica. Em seguida, ele reconhece os rostos no vídeo com base no modelo treinado. Para obter mais informações, consulte Personalizar um modelo de pessoa no site do Azure AI Video Indexer e Personalizar um modelo de pessoa com a API do Azure AI Video Indexer.
Extração em miniatura para rosto: identifica o melhor rosto capturado em cada grupo de rostos (com base na qualidade, no tamanho e na posição frontal) e o extrai como um ativo de imagem.
OCR (reconhecimento óptico de caracteres): extrai texto de imagens como imagens, placas de rua e produtos em arquivos de mídia para criar insights.
Moderação de conteúdo visual: Detecta visuais somente para adultos e/ou eróticos.
Identificação de rótulos: Identifica objetos visuais e ações exibidas.
Segmentação de cena: Determina quando a cena muda em um vídeo com base em indicações visuais. Uma cena representa um único evento e é composta por uma série de capturas consecutivas, que estão relacionadas semanticamente.
Detecção de captura: Determina quando a captura muda em um vídeo com base em indicações visuais. Uma captura é uma série de quadros tirados da mesma câmera de imagem de movimento. Para obter mais informações, consulte Cenas, capturas e quadros-chave.
Detecção de quadro preto: Identifica quadros pretos apresentados no vídeo.
Extração de quadro-chave: Detecta quadros-chave estáveis em um vídeo.
Créditos em movimento: Identifica o início e o fim dos créditos em movimento no final de filmes e programas de TV.
Detecção de tipo de captura de editorial: marcação de capturas com base no tipo (como plano aberto, plano média, close up, close up extremo, duas capturas, várias pessoas, externa e interna, etc.). Para obter mais informações, consulte Detecção do tipo de captura do editorial.
Detecção de pessoas observadas: detecta pessoas observadas em vídeos e fornece informações como a localização da pessoa no quadro de vídeo (usando caixas delimitadoras) e o carimbo de data/hora exato (início, fim) e a confiança quando uma pessoa aparece. Para saber mais, consulte Rastrear pessoas observadas em um vídeo.
- Pessoa correspondente: Faz a correspondência entre as pessoas que foram observadas no vídeo e os rostos correspondentes detectados. A correspondência entre as pessoas observadas e os rostos contém um nível de confiança.
- Roupas detectadas: detecta os tipos de roupas das pessoas que aparecem no vídeo e fornece informações como mangas compridas ou curtas, calças compridas ou curtas e saia ou vestido. As roupas detectadas são associadas às pessoas que as estão vestindo e ao carimbo de data/hora (início, término) exato, bem como a um nível de confiança que é fornecido para a detecção.
- Roupas em destaque: captura imagens de roupas em destaque que aparecem em um vídeo. Você pode aprimorar seus anúncios direcionados usando o insight de roupas em destaque. Para obter informações sobre como as imagens de roupas em destaque são classificadas e como obter os insights, confira roupas em destaque.
Detecção de objetos Detecta objetos exclusivos que também são rastreados para que, se retornarem ao quadro, sejam reconhecidos. Confira Detecção de objetos do Azure AI Video Indexer
Detecção de ardósia: identifica os seguintes insights de pós-produção de filme ao indexar um vídeo usando a opção de indexação avançada:
- Detecção de claquete com extração de metadados.
- Detecção de padrões digitais, incluindo barras de cores.
- Detecção de imagem fixa sem texto, incluindo correspondência de cena.
Para mais detalhes, consulte Detecção de imagem fixa.
Detecção de logotipo textual: corresponde a um texto predefinido específico usando o OCR do Azure AI Video Indexer. Por exemplo, se um usuário criou um logotipo textual: "Microsoft", diferentes aparências da palavra Microsoft serão detectadas como o logotipo da "Microsoft". Para obter mais informações, consulte Detectar logotipo textual.
Modelos de áudio
Transcrição de áudio: converte fala em texto em mais 50 idiomas e permite extensões. Para obter mais informações, confira Suporte ao idioma do Azure AI Video Indexer.
Detecção automática de idioma: identifica o idioma falado dominante. Para obter mais informações, confira Suporte ao idioma do Azure AI Video Indexer. Se o idioma não puder ser identificado com confiança, o Azure AI Video Indexer presumirá que o idioma falado é o Inglês.
Identificação e transcrição de fala em vários idiomas: identifica o idioma falado em diferentes segmentos do áudio. Ele envia cada segmento do arquivo de mídia a ser transcrito e, em seguida, combina a transcrição em uma transcrição unificada. Para obter mais informações sobre transcrição, consulte Transcrição
Legendagem oculta: Cria legendas ocultas em três formatos: VTT, TTML, SRT.
Processamento de dois canais: Detecta automaticamente, separa a transcrição e mescla em uma única linha do tempo.
Redução de ruído: Limpa gravações com ruídos ou áudio com telefonia (com base nos filtros do Skype).
Personalização de transcrição (CRIS): Treina modelos de conversão de fala em texto para transcrições específicas do setor. Para obter mais informações, consulte Personalizar um modelo de linguagem.
Enumeração de alto-falante: Mapeia e entende qual locutor disse quais palavras e quando. Dezesseis locutores podem ser detectados em um único arquivo de áudio.
Estatísticas de alto-falante: Fornece estatísticas das taxas de fala dos alto-falantes.
Moderação de conteúdo visual: Detecta texto explícito na transcrição de áudio.
Detecção de emoções baseada em texto: emoções como alegria, tristeza, raiva e medo que foram detectadas pela análise de transcrição.
Tradução: cria traduções da transcrição de áudio para vários idiomas diferentes. Para obter mais informações, confira Suporte ao idioma do Azure AI Video Indexer.
Detecção de efeitos de áudio: detecta os seguintes efeitos de áudio nos segmentos que não são de fala do conteúdo: alarme ou sirene, latidos de cachorro, reações da multidão (aplausos, palmas e vaias), tiros ou explosões, risos, vidros quebrados e silêncio.
Os eventos acústicos detectados estão no arquivo de legendas ocultas. O arquivo pode ser baixado do site do Azure AI Video Indexer. Para saber mais, consulte Detecção de efeitos de áudio.
Observação
O conjunto completo de eventos está disponível apenas quando você escolhe Análise de Áudio Avançada ao carregar um arquivo, na predefinição de upload. Por padrão, apenas o silêncio é detectado.
Modelos de áudio e vídeo (vários canais)
Ao fazer a indexação por um canal, o resultado parcial desses modelos estará disponível.
- Extração de palavra-chave: Extrai palavras-chave de falas e de textos visuais.
- Extração de entidades nomeadas: Extrai marcas, locais e pessoas de texto visual e de fala por meio de processamento natural de linguagem (NLP).
- Inferência de tópicos: extrai tópicos com base em várias palavras-chave (ou seja, as palavras-chave "Bolsa de Valores", "Wall Street" produzirão o tópico "Economia"). O modelo usa três ontologias diferentes (IPTC, Wikipédia e a ontologia de tópicos hierárquicos Video Indexer). O modelo usa transcrição (palavras faladas), conteúdo OCR (texto visual) e celebridades reconhecidas no vídeo usando o modelo de reconhecimento facial Video Indexer.
- Artefatos: Extrai um conjunto avançado de artefatos com o "próximo nível de detalhes" para cada um dos modelos.
- Análise de Sentimento: Identifica sentimentos positivos, negativos e neutros de falas e de textos visuais.
Como posso começar a usar o Azure AI Video Indexer?
Saiba como começar a usar o Azure AI Video Indexer.
Depois de configurar, comece a usar insights e confira outros guias de instruções.
Conformidade, Privacidade e Segurança
Observação
Em 11 de junho de 2020, a Microsoft comunicou que não venderá tecnologia de reconhecimento facial a departamentos de polícia nos Estados Unidos até que um sólido regulamento, com base nos direitos humanos, seja aprovado. Como tal, os clientes não podem usar recursos ou funcionalidades de reconhecimento facial incluídos nos serviços de IA do Azure, como o Indexador de Rosto ou Vídeo, se um cliente estiver usando ou permitindo o uso de tais serviços por ou para um departamento de polícia nos Estados Unidos.
Observação
O acesso a recursos de identificação facial, personalização e reconhecimento de celebridades é limitado com base em critérios de qualificação e uso para dar suporte aos nossos princípios de IA Responsável. Os recursos de identificação facial, personalização e reconhecimento de celebridades só estão disponíveis para clientes e parceiros gerenciados da Microsoft. Use o Formulário de admissão de reconhecimento facial para solicitar acesso.
Você deve cumprir todas as leis aplicáveis ao usar o Azure AI Video Indexer e não pode usar o Azure AI Video Indexer ou qualquer serviço do Azure de maneira que viole os direitos de terceiros ou que possa ser prejudicial a terceiros.
Antes de carregar qualquer vídeo/imagem no Azure AI Video Indexer, você deve ter todos os direitos apropriados e legais para usar o vídeo/imagem, incluindo, quando exigido por lei, todos os consentimentos necessários de indivíduos (se houver) no vídeo/imagem, para o uso, processamento e armazenamento de seus dados no Azure AI Video Indexer e no Azure. Algumas jurisdições podem impor requisitos legais especiais para a coleta, o processamento online e o armazenamento de determinadas categorias de dados, como dados biométricos. Antes de usar o Azure AI Video Indexer e o Azure para o processamento e armazenamento de quaisquer dados sujeitos a requisitos legais especiais, você deve garantir que seu uso esteja em conformidade com todos os requisitos legais que podem se aplicar a Você e ao uso pretendido.
Para saber mais sobre conformidade, privacidade e segurança no Azure AI Video Indexer, visite a Central de Confiabilidade da Microsoft. Para saber mais sobre as obrigações de privacidade, as práticas de tratamento e retenção de dados pela Microsoft, incluindo como excluir seus dados, examine a Política de Privacidade, o “OST” (Termos do Online Services) e o “DPA” (Adendo de Processamento de Dados) da Microsoft. Ao usar o Azure AI Video Indexer, você concorda em estar vinculado ao OST, ao DPA e à Política de Privacidade.