Obtenha informações sobre transcrição de mídia, tradução e identificação de idiomas

Artigo
10/09/2024

Transcrição, tradução e identificação de idiomas de mídia

A transcrição, tradução e identificação de idioma detecta, transcreve e traduz a fala em arquivos de mídia em mais de 50 idiomas.

O VI (Video Indexer) do Azure AI processa a fala no arquivo de áudio para extrair a transcrição que é traduzida para vários idiomas. Ao selecionar a tradução para um idioma específico, tanto a transcrição quanto os insights como palavras-chave, tópicos, rótulos ou OCR são traduzidos para o idioma especificado. A transcrição pode ser usada como está ou ser combinada com insights do locutor que mapeiam e atribuem as transcrições aos locutores. Vários alto-falantes podem ser detectados em um arquivo de áudio. Um ID é atribuído a cada locutor e é exibido sob sua fala transcrita.

A identificação de idioma (LID) reconhece o idioma falado dominante suportado no arquivo de vídeo. Para obter mais informações, consulte Aplicando LID.

A identificação multilíngue (MLID) reconhece automaticamente os idiomas falados em diferentes segmentos no arquivo de áudio e envia cada segmento para ser transcrito nos idiomas identificados. No final deste processo, todas as transcrições são combinadas no mesmo arquivo. Para obter mais informações, consulte Aplicando MLID. Os insights resultantes são gerados em uma lista categorizada em um arquivo JSON que inclui a ID, o idioma, o texto transcrito, a duração e a pontuação de confiança.

Ao indexar arquivos de mídia com vários alto-falantes, o Azure AI Video Indexer executa a diarização do alto-falante que identifica cada alto-falante em um vídeo e atribui cada linha transcrita a um alto-falante. Os palestrantes recebem uma identidade única, como Speaker #1 e Speaker #2. Isso permite a identificação de falantes durante as conversas e pode ser útil em vários cenários, como conversas médico-paciente, interações agente-cliente e processos judiciais.

Casos de uso de transcrição de mídia, tradução e identificação de idioma

Promover a acessibilidade disponibilizando conteúdo para pessoas com deficiência auditiva usando o Azure AI Video Indexer para gerar transcrição e tradução de fala para texto em vários idiomas.
Melhorar a distribuição de conteúdo para um público diversificado em diferentes regiões e idiomas, fornecendo conteúdo em vários idiomas usando os recursos de transcrição e tradução do Azure AI Video Indexer.
Aprimorando e melhorando a geração manual de legendas e legendas usando os recursos de transcrição e tradução do Azure AI Video Indexer e usando as legendas geradas pelo Azure AI Video Indexer em um dos formatos com suporte.
Usando a LID (identificação de idioma) ou a MLID (identificação de vários idiomas) para transcrever vídeos em idiomas desconhecidos para permitir que o Azure AI Video Indexer identifique automaticamente os idiomas que aparecem no vídeo e gere a transcrição de acordo.

Exibir o JSON do insight com o portal da Web

Depois de carregar e indexar um vídeo, os insights estarão disponíveis no formato JSON para download usando o portal da Web.

Selecione a guia Biblioteca.
Selecione a mídia com a qual deseja trabalhar.
Selecione Baixar e o JSON (Insights). O arquivo JSON é aberto em uma nova guia do navegador.
Procure o par de chaves descrito na resposta de exemplo.

Usar a API

Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
Procure os pares de chaves descritos na resposta de exemplo.

Exemplo de resposta

Todos os idiomas detectados no vídeo estão em sourceLanauge e cada instância na seção de transcrição inclui o idioma transcrito.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Importante

É importante ler a visão geral da nota de transparência para todos os recursos do VI. Cada insight também tem suas próprias notas de transparência:

Notas de transcrição, tradução e identificação de idioma

Quando usado com responsabilidade e cuidado, o Azure AI Video Indexer é uma ferramenta valiosa para muitos setores. Você deve sempre respeitar a privacidade e a segurança dos outros e cumprir os regulamentos locais e globais. Recomendações:

Considere cuidadosamente a precisão dos resultados, para promover dados mais precisos, verifique a qualidade do áudio, o áudio de baixa qualidade pode afetar os insights detectados.
O Video Indexer não executa o reconhecimento de alto-falante, portanto, os alto-falantes não recebem um identificador em vários arquivos. Não é possível pesquisar um palestrante individual em vários arquivos ou transcrições.
Os identificadores de alto-falante são atribuídos aleatoriamente e só podem ser usados para distinguir diferentes alto-falantes em um único arquivo.
Conversa cruzada e fala sobreposta: quando vários falantes falam simultaneamente ou interrompem uns aos outros, torna-se um desafio para o modelo distinguir e atribuir com precisão o texto correto aos falantes correspondentes.
Sobreposições de alto-falantes: às vezes, os falantes podem ter padrões de fala, sotaques ou usar vocabulário semelhante, dificultando a diferenciação entre eles.
Áudio barulhento: baixa qualidade de áudio, ruído de fundo ou gravações de baixa qualidade podem prejudicar a capacidade do modelo de identificar e transcrever corretamente os alto-falantes.
Fala emocional: Variações emocionais na fala, como gritos, choro ou excitação extrema, podem afetar a capacidade do modelo de diarizar com precisão os falantes.
Disfarce ou representação do locutor: se um locutor tentar imitar ou disfarçar intencionalmente sua voz, o modelo poderá identificá-lo incorretamente.
Identificação ambígua do locutor: alguns segmentos da fala podem não ter características exclusivas suficientes para que o modelo atribua com confiança a um locutor específico.
O áudio que contém idiomas diferentes dos selecionados produz resultados inesperados.
O comprimento mínimo do segmento para detectar cada idioma é de 15 segundos.
O deslocamento de detecção de idioma é de 3 segundos em média.
Espera-se que a fala seja contínua. Alternâncias frequentes entre idiomas podem afetar o desempenho do modelo.
A fala de falantes não nativos pode afetar o desempenho do modelo (por exemplo, quando os falantes usam seu primeiro idioma e mudam para outro idioma).
O modelo foi projetado para reconhecer a fala conversacional espontânea com acústica de áudio razoável (não comandos de voz, canto, etc.).
A criação e a edição de projetos não estão disponíveis para vídeos em vários idiomas.
Os modelos de idioma personalizados não estão disponíveis ao usar a detecção de vários idiomas.
Não há suporte para a adição de palavras-chave.
A indicação de idioma não está incluída no arquivo de legenda oculta exportado.
A transcrição de atualização na API não dá suporte a arquivos de vários idiomas.
O modelo foi projetado para reconhecer uma fala conversacional espontânea (não comandos de voz, canto e assim por diante).
Se o Azure AI Video Indexer não puder identificar o idioma com uma confiança alta o suficiente (maior que 0,6), o idioma de fallback será o inglês.

Aqui está uma lista de idiomas suportados.

Componentes de transcrição, tradução e identificação de idioma

Durante o procedimento de transcrição, tradução e identificação do idioma, a fala em um arquivo de mídia é processada da seguinte forma:

Componente	Definição
Idioma de origem	O usuário carrega o arquivo de origem para indexação e: - Especifica o idioma de origem do vídeo. - Seleciona detecção automática de idioma único (LID) para identificar o idioma do arquivo. A saída é salva separadamente. - Seleciona a detecção automática de vários idiomas (MLID) para identificar vários idiomas no arquivo. A saída de cada idioma é salva separadamente.
API de transcrição	O arquivo de áudio é enviado aos serviços de IA do Azure para obter a saída transcrita e traduzida. Se um idioma for especificado, ele será processado adequadamente. Se nenhum idioma for especificado, um processo LID ou MLID será executado para identificar o idioma após o qual o arquivo é processado.
Unificação de resultados	Os arquivos transcritos e traduzidos são unificados no mesmo arquivo. Os dados de saída incluem o ID do falante de cada frase extraída, juntamente com seu nível de confiança.
Valor de confiança	O nível de confiança estimado de cada frase é calculado como um intervalo de 0 a 1. A pontuação de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Veja todas as amostras para VI

Compartilhar via