Analise arquivos de vídeo e áudio com os Serviços de Mídia do Azure

logotipo dos Serviços de Mídia v3


Advertência

Os Serviços de Mídia do Azure serão desativados em 30 de junho de 2024. Para obter mais informações, consulte o AMS Retirement Guide.

Importante

Como o Responsible AI Standards da Microsoft descreve, a Microsoft está comprometida com a justiça, privacidade, segurança e transparência em relação aos sistemas de IA. Para se alinhar a esses padrões, Serviços de Mídia do Azure está desativando a predefinição do Video Analyzer em 14 de setembro de 2023. Atualmente, essa predefinição permite extrair várias informações de vídeo e áudio de um arquivo de vídeo. Os clientes podem substituir seus fluxos de trabalho atuais usando o conjunto de recursos mais avançado oferecido pelo Azure Video Indexer.

Os Serviços de Mídia permitem extrair informações de seus arquivos de vídeo e áudio usando as predefinições do analisador de áudio e vídeo. Este artigo descreve as predefinições do analisador usadas para extrair insights. Se você quiser informações mais detalhadas de seus vídeos, use o serviço Azure Video Indexer. Para entender quando usar as predefinições do Video Indexer versus o analisador de Serviços de Mídia, confira o documento de comparação de .

Existem dois modos para a predefinição do Audio Analyzer, básico e padrão. Veja a descrição das diferenças na tabela abaixo.

Para analisar seu conteúdo usando predefinições do Media Services v3, crie uma de transformação de e envie uma de trabalho que use uma destas predefinições: VideoAnalyzerPreset ou AudioAnalyzerPreset.

Observação

AudioAnalyzerPreset não é suportado se a conta de armazenamento não tiver acesso à rede pública.

Conformidade, privacidade e segurança

Tem de cumprir todas as leis aplicáveis na sua utilização do Video Indexer e não pode utilizar o Video Indexer ou qualquer outro serviço do Azure de uma forma que viole os direitos de terceiros ou possa ser prejudicial para outros. Antes de carregar quaisquer vídeos, incluindo quaisquer dados biométricos, para o serviço Video Indexer para processamento e armazenamento, Você deve ter todos os direitos adequados, incluindo todos os consentimentos apropriados, do(s) indivíduo(s) no vídeo. Para saber mais sobre conformidade, privacidade e segurança no Video Indexer, os Termos dos Serviços Cognitivos do Azure . Para conhecer as obrigações de privacidade da Microsoft e o tratamento dos seus dados, consulte a Declaração de Privacidade de da Microsoft, os Termos dos Serviços Online ("OST") e Adenda de Processamento de Dados ("DPA"). Mais informações de privacidade, incluindo sobre retenção de dados, exclusão/destruição, estão disponíveis no OST. Ao usar o Video Indexer, você concorda em estar vinculado aos Termos dos Serviços Cognitivos, ao OST, ao DPA e à Declaração de Privacidade.

Predefinições incorporadas

Atualmente, os Serviços de Mídia suportam as seguintes predefinições internas do analisador:

Nome predefinido Cenário/Modo Detalhes
AudioAnalyzerPreset Analisando o modo padrão de áudio A predefinição aplica um conjunto predefinido de operações de análise baseadas em IA, incluindo transcrição de fala. Atualmente, a predefinição suporta o processamento de conteúdo com uma única faixa de áudio que contém fala em um único idioma. Especifique o idioma da carga útil de áudio na entrada usando o formato BCP-47 de 'language tag-region'. Consulte a lista de idiomas suportados abaixo para obter os códigos de idioma disponíveis. A deteção automática de idioma escolhe o primeiro idioma detetado e continua com o idioma selecionado para todo o arquivo, se ele não estiver definido ou definido como nulo. Atualmente, o recurso de deteção automática de idioma suporta: inglês, chinês, francês, alemão, italiano, japonês, espanhol, russo e português do Brasil. Ele não suporta alternar dinamicamente entre idiomas depois que o primeiro idioma é detetado. O recurso de deteção automática de idioma funciona melhor com gravações de áudio com fala claramente percetível. Se a deteção automática de idioma não conseguir encontrar o idioma, a transcrição retornará para o inglês.
AudioAnalyzerPreset Analisando o modo básico de áudio Este modo predefinido executa a transcrição de fala para texto e a geração de um arquivo de legenda/legenda VTT. A saída desse modo inclui um arquivo JSON do Insights, incluindo apenas as palavras-chave, transcrição e informações de tempo. A deteção automática de idioma e a diarização do orador não estão incluídas neste modo. A lista de idiomas suportados é idêntica ao modo Standard acima.
VideoAnalyzerPreset Análise de áudio e vídeo Extrai insights (metadados avançados) de áudio e vídeo e produz um arquivo de formato JSON. Você pode especificar se deseja extrair apenas informações de áudio ao processar um arquivo de vídeo.
FaceDetectorPreset Deteção de rostos presentes em vídeo Descreve as configurações a serem usadas ao analisar um vídeo para detetar todos os rostos presentes.

Observação

AudioAnalyzerPreset não é suportado se a conta de armazenamento não tiver acesso à rede pública.

Idiomas suportados

  • Árabe ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' e 'ar-SY')
  • Português do Brasil ('pt-BR')
  • Chinês ('zh-CN')
  • Dinamarquês('da-DK')
  • Inglês ('en-US', 'en-GB' e 'en-AU')
  • Finlandês ('fi-FI')
  • Francês ('fr-FR' e 'fr-CA')
  • Alemão ('de-DE')
  • Hebraico (he-IL)
  • Hindi ('hi-IN'), Coreano ('ko-KR')
  • Italiano ('it-IT')
  • Japonês ('ja-JP')
  • Norueguês ('nb-NO')
  • Persa ('fa-IR')
  • Portugal Português ('pt-PT')
  • Russo ('ru-RU')
  • Espanhol ('es-ES' e 'es-MX')
  • Sueco ('sv-SE')
  • Tailandês ('th-TH')
  • Turco ('tr-TR')

Observação

AudioAnalyzerPreset não é suportado se a conta de armazenamento não tiver acesso à rede pública.

Modo padrão AudioAnalyzerPreset

A predefinição permite extrair várias informações de áudio de um arquivo de áudio ou vídeo.

A saída inclui um arquivo JSON (com todos os insights) e um arquivo VTT para a transcrição de áudio. Essa predefinição aceita uma propriedade que especifica o idioma do arquivo de entrada na forma de uma cadeia de caracteres de BCP47 . Os insights de áudio incluem:

  • Transcrição de áudio: Uma transcrição das palavras faladas com carimbos de data/hora. Vários idiomas são suportados.
  • Palavras-chave: Palavras-chave extraídas da transcrição áudio.

Modo básico AudioAnalyzerPreset

A predefinição permite extrair várias informações de áudio de um arquivo de áudio ou vídeo.

A saída inclui um arquivo JSON e um arquivo VTT para a transcrição de áudio. Essa predefinição aceita uma propriedade que especifica o idioma do arquivo de entrada na forma de uma cadeia de caracteres de BCP47 . A saída inclui:

  • Transcrição de áudio: Uma transcrição das palavras faladas com carimbos de data/hora. Vários idiomas são suportados, mas a deteção automática de idioma e a diarização do orador não estão incluídas.
  • Palavras-chave: Palavras-chave extraídas da transcrição áudio.

VideoAnalyzerPreset

A predefinição permite extrair várias informações de áudio e vídeo de um arquivo de vídeo. A saída inclui um arquivo JSON (com todos os insights), um arquivo VTT para a transcrição do vídeo e uma coleção de miniaturas. Essa predefinição também aceita uma cadeia de caracteres BCP47 (que representa o idioma do vídeo) como propriedade. Os insights de vídeo incluem todos os insights de áudio mencionados acima e os seguintes itens extras:

  • Face tracking: O tempo durante o qual os rostos estão presentes no vídeo. Cada rosto tem um ID facial e uma coleção correspondente de miniaturas.
  • de texto visual: o texto detetado através do reconhecimento ótico de caracteres. O texto tem carimbo de data/hora e também é usado para extrair palavras-chave (além da transcrição de áudio).
  • Keyframes: Uma coleção de quadros-chave extraídos do vídeo.
  • Moderação de conteúdo visual: A parte dos vídeos sinalizada como adulta ou de natureza racista.
  • de anotação: um resultado da anotação dos vídeos com base em um modelo de objeto predefinido

insights.json elementos

A saída inclui um arquivo JSON (insights.json) com todas as informações encontradas no vídeo ou áudio. O JSON pode conter os seguintes elementos:

Transcrição

Designação Descrição
ID O ID da linha.
Texto A transcrição em si.
Idioma A linguagem da transcrição. Destina-se a suportar transcrição onde cada linha pode ter um idioma diferente.
instâncias Uma lista de intervalos de tempo onde esta linha apareceu. Se a instância for transcrição, terá apenas uma instância.

Exemplo:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

OCR

Designação Descrição
ID O ID da linha OCR.
Texto O texto OCR.
confiança A confiança no reconhecimento.
Idioma A linguagem OCR.
instâncias Uma lista de intervalos de tempo onde este OCR apareceu (o mesmo OCR pode aparecer várias vezes).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

rostos

Designação Descrição
ID O ID do rosto.
Designação O nome do rosto. Pode ser 'Desconhecido #0', uma celebridade identificada ou uma pessoa treinada pelo cliente.
confiança A confiança na identificação facial.
Descrição Uma descrição da celebridade.
thumbnailId O ID da miniatura desse rosto.
conhecidoPersonId O ID interno (se for uma pessoa conhecida).
referenceId A ID do Bing (se for uma celebridade do Bing).
Tipo de referência Atualmente apenas Bing.
título O título (se for uma celebridade, por exemplo, "CEO da Microsoft").
imageUrl O URL da imagem, se for uma celebridade.
instâncias Casos em que o rosto apareceu no intervalo de tempo dado. Cada instância também tem um thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Tiros

Designação Descrição
ID O ID do tiro.
quadros-chave Uma lista de quadros-chave dentro da captura (cada um tem um ID e uma lista de intervalos de tempo de instâncias). As instâncias de quadros-chave têm um campo thumbnailId com o ID de miniatura do keyFrame.
instâncias Uma lista de intervalos de tempo deste tiro (tiros têm apenas uma instância).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Estatística

Designação Descrição
Contagem de correspondências Número de correspondências no vídeo.
Contagem de palavras O número de palavras por orador.
SpeakerNumberOfFragments A quantidade de fragmentos que o orador tem num vídeo.
SpeakerLongestMonolog O monólogo mais longo do orador. Se o alto-falante tiver silêncios dentro do monolog, ele está incluído. O silêncio no início e no final do monólogo é removido.
SpeakerTalkToListenRatio O cálculo é baseado no tempo gasto no monolog do orador (sem o silêncio no meio) dividido pelo tempo total do vídeo. A hora é arredondada para a terceira casa decimal.

rótulos

Designação Descrição
ID O ID do rótulo.
Designação O nome do rótulo (por exemplo, 'Computador', 'TV').
Idioma O idioma do nome do rótulo (quando traduzido). BCP-47
instâncias Uma lista de intervalos de tempo em que esse rótulo apareceu (um rótulo pode aparecer várias vezes). Cada instância tem um campo de confiança.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Palavras Chave

Designação Descrição
ID O ID da palavra-chave.
Texto O texto da palavra-chave.
confiança A confiança no reconhecimento da palavra-chave.
Idioma O idioma da palavra-chave (quando traduzido).
instâncias Uma lista de intervalos de tempo onde esta palavra-chave apareceu (uma palavra-chave pode aparecer várias vezes).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

O bloco visualContentModeration contém intervalos de tempo que o Video Indexer descobriu ter potencialmente conteúdo adulto. Se visualContentModeration estiver vazio, não haverá conteúdo adulto identificado.

Os vídeos que contenham conteúdo adulto ou racista podem estar disponíveis apenas para visualização privada. Os usuários podem enviar uma solicitação para uma revisão humana do conteúdo, caso em que o atributo IsAdult conterá o resultado da revisão humana.

Designação Descrição
ID O ID de moderação de conteúdo visual.
Pontuação adulta A pontuação adulta (do moderador de conteúdo).
racyScore A pontuação picante (da moderação de conteúdo).
instâncias Uma lista de intervalos de tempo onde essa moderação de conteúdo visual apareceu.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Obtenha ajuda e suporte

Você pode entrar em contato com os Serviços de Mídia com perguntas ou acompanhar nossas atualizações por um dos seguintes métodos: