Avaliação de pronúncia no AI Studio

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

A avaliação da pronúncia usa a capacidade de fala para texto para fornecer feedback subjetivo e objetivo para os alunos de línguas. Praticar a pronúncia e obter feedback atempado são essenciais para melhorar as competências linguísticas. As avaliações conduzidas por professores experientes podem levar muito tempo e esforço e tornam uma avaliação de alta qualidade dispendiosa para os alunos. A avaliação da pronúncia pode ajudar a tornar a avaliação linguística mais envolvente e acessível a alunos de todas as origens.

Nota

Para obter informações sobre a disponibilidade da avaliação de pronúncia, consulte idiomas suportados e regiões disponíveis.

Este artigo descreve como usar a ferramenta de avaliação de pronúncia sem escrever nenhum código através do AI Studio. Para obter informações sobre como integrar a avaliação de pronúncia em seus aplicativos de fala, consulte Como usar a avaliação de pronúncia.

Cenários de leitura e fala

Para a avaliação da pronúncia, existem dois cenários: Leitura e Fala.

  • Leitura: Este cenário foi projetado para avaliação com script. Exige que o/a aluno/a leia um determinado texto. O texto de referência é fornecido antecipadamente.
  • Expressão oral: este cenário foi projetado para avaliação sem script. Exige que o/a aluno/a fale sobre um determinado tópico. O texto de referência não é fornecido com antecedência.

Conduzir uma avaliação com script

Siga estes passos para avaliar a pronúncia do texto de referência:

  1. Vá para Avaliação de pronúncia no AI Studio.

    Captura de tela de como ir para a avaliação de pronúncia no AI Studio.

  2. Na guia Leitura, escolha um idioma suportado que você deseja avaliar a pronúncia.

    Captura de ecrã a mostrar a escolha de um idioma suportado no separador de leitura que pretende avaliar a pronúncia.

  3. Você pode usar exemplos de texto provisionado ou inserir seu próprio script.

    Ao ler o texto, você deve estar perto do microfone para se certificar de que a voz gravada não está muito baixa.

    Captura de tela de onde gravar áudio com um microfone na guia de leitura.

    Caso contrário, você pode fazer upload de áudio gravado para avaliação de pronúncia. Uma vez carregado com sucesso, o áudio é automaticamente avaliado pelo sistema, como mostrado na captura de tela a seguir.

    Captura de tela do upload de áudio gravado a ser avaliado.

Conduzir uma avaliação sem script

Se você quiser realizar uma avaliação sem script, selecione a guia Expressão oral. Esse recurso permite que você realize uma avaliação sem script sem fornecer texto de referência com antecedência. Veja como proceder:

  1. Vá para Avaliação de pronúncia no AI Studio.

  2. Na guia Expressão oral, escolha um idioma suportado que você deseja avaliar a pronúncia.

    Captura de ecrã a mostrar a escolha de um idioma suportado no separador Expressão oral que pretende avaliar a pronúncia.

  3. Em seguida, você pode selecionar entre os tópicos de exemplo fornecidos ou inserir seu próprio tópico. Esta escolha permite-lhe avaliar a sua capacidade de falar sobre um determinado assunto sem um guião predefinido.

    Captura de tela da inserção de um tópico na guia de fala para avaliar sua capacidade de falar sobre um determinado assunto sem um script predefinido.

    Ao gravar sua fala para avaliação de pronúncia, é importante garantir que seu tempo de gravação esteja dentro do intervalo recomendado de 15 segundos (equivalente a mais de 50 palavras) a 10 minutos. Este intervalo de tempo é ideal para avaliar o conteúdo do seu discurso com precisão. Para receber uma pontuação de tópico, seu áudio falado deve conter pelo menos três frases.

    Você também pode fazer upload de áudio gravado para avaliação de pronúncia. Uma vez carregado com sucesso, o áudio é automaticamente avaliado pelo sistema.

Resultados da avaliação da pronúncia

Depois de gravar o seu discurso ou carregar o áudio gravado, o resultado da avaliação é produzido. O resultado inclui o áudio falado e o feedback sobre a avaliação da fala. Você pode ouvir seu áudio falado e baixá-lo, se necessário.

Você também pode verificar o resultado da avaliação de pronúncia em JSON. As pontuações de precisão de nível de palavra, nível de sílaba e nível de fonema são incluídas no arquivo JSON.

Captura de ecrã a mostrar o resultado da avaliação na janela de visualização, que inclui a transcrição e o feedback sobre o seu discurso.

A palavra é realçada de acordo com o tipo de erro. Os tipos de erro na avaliação de pronúncia são representados usando cores diferentes. Esta distinção visual facilita a identificação e análise de erros específicos. Ele fornece uma visão geral clara dos tipos e frequências de erro no áudio falado, ajudando você a se concentrar em áreas que precisam de melhorias. Você pode ativar/desativar cada tipo de erro para se concentrar em tipos específicos de erros ou excluir determinados tipos da exibição. Este recurso oferece flexibilidade na forma como você revisa e analisa os erros em seu áudio falado. Ao passar o mouse sobre cada palavra, você pode ver pontuações de precisão para a palavra inteira ou fonemas específicos.

Na parte inferior do resultado da avaliação, os resultados da pontuação são exibidos. Para avaliação de pronúncia com script, apenas a pontuação de pronúncia (incluindo pontuação de precisão, pontuação de fluência, pontuação de completude e pontuação de prosódia) é fornecida. Para avaliação de pronúncia sem script, tanto a pontuação de pronúncia (incluindo pontuação de precisão, pontuação de fluência e pontuação de prosódia) quanto a pontuação de conteúdo (incluindo pontuação de vocabulário, pontuação gramatical e pontuação de tópico) são exibidas.

Granularidade da avaliação da pronúncia

A avaliação de pronúncia fornece vários resultados de avaliação em diferentes granularidades, desde fonemas individuais até toda a entrada de texto.

  • No nível de texto completo, a avaliação de pronúncia oferece pontuações adicionais de Fluência, Completude e Prosódia: Fluência indica quão perto a fala corresponde ao uso de intervalos silenciosos entre palavras por um falante nativo; Completude indica quantas palavras são pronunciadas no discurso para a entrada de texto de referência; A prosódia indica o quão bem um orador transmite elementos de naturalidade, expressividade e prosódia geral em sua fala. Uma pontuação geral agregada de Precisão, Fluência, Completude e Prosódia é então dada para indicar a qualidade geral da pronúncia do discurso dado. A avaliação de pronúncia também oferece pontuação de conteúdo (Vocabulário, Gramática e Tópico) no nível de texto completo.
  • No nível da palavra, a avaliação da pronúncia pode detetar automaticamente erros e fornecer pontuação de precisão simultaneamente, o que fornece informações mais detalhadas sobre omissão, repetição, inserções e pronúncia incorreta no discurso dado.
  • As pontuações de precisão de nível de sílaba estão atualmente disponíveis por meio do arquivo JSON ou do SDK de fala.
  • Ao nível do fonema, a avaliação da pronúncia fornece pontuações de precisão de cada fonema, ajudando os alunos a compreender melhor os detalhes da pronúncia da sua fala.

Além das pontuações básicas de precisão, fluência e completude, o recurso de avaliação de pronúncia no AI Studio inclui pontuações mais abrangentes para fornecer feedback detalhado sobre vários aspetos do desempenho e compreensão da fala. As pontuações melhoradas são as seguintes: pontuação de prosódia, pontuação de vocabulário, pontuação de gramática e pontuação de tópico. Essas pontuações oferecem informações valiosas sobre prosódia de fala, uso de vocabulário, correção gramatical e compreensão de tópicos.

Captura de tela da pontuação geral de pronúncia e pontuação geral de conteúdo no AI Studio.

Na parte inferior do resultado da Avaliação, duas pontuações gerais são exibidas: Pontuação de pronúncia e Pontuação de conteúdo. Na guia Leitura, você encontrará a pontuação de Pronúncia exibida. Na guia Expressão oral, a pontuação Pronúncia e a pontuação Conteúdo são exibidas.

Pontuação de pronúncia: Esta pontuação representa uma avaliação agregada da qualidade da pronúncia e inclui quatro subaspectos. Essas pontuações estão disponíveis nas guias de leitura e fala para avaliações com e sem script.

  • Pontuação de precisão: Avalia a correção da pronúncia.
  • Pontuação de fluência: Mede o nível de suavidade e naturalidade na fala.
  • Pontuação de completude: Reflete o número de palavras pronunciadas corretamente.
  • Escore de prosódia: Avalia o uso de entonação, ritmo e estresse apropriados. Vários outros tipos de erro relacionados à avaliação de prosódia são introduzidos, como quebra inesperada, quebra ausente e monótona. Esses tipos de erro fornecem informações mais detalhadas sobre erros de pronúncia em comparação com o mecanismo anterior.

Pontuação de conteúdo: Esta pontuação fornece uma avaliação agregada do conteúdo do discurso e inclui três subaspectos. Essa pontuação só está disponível na guia de fala para uma avaliação sem script.

  • Pontuação do vocabulário: Avalia o uso efetivo das palavras pelo orador e sua adequação dentro do contexto dado para expressar ideias com precisão, e o nível de complexidade lexical.
  • Pontuação gramatical: Avalia a correção do uso da gramática e a variedade de padrões de frases. Considera a precisão lexical, a precisão gramatical e a diversidade de estruturas de frases, proporcionando uma avaliação mais abrangente da proficiência linguística.
  • Pontuação do tópico: Avalia o nível de compreensão e envolvimento com o tópico discutido no discurso. Avalia a capacidade do orador para expressar eficazmente pensamentos e ideias relacionadas com o tópico em questão.

Estas pontuações gerais oferecem uma avaliação abrangente da pronúncia e do conteúdo, fornecendo aos alunos feedback valioso sobre vários aspetos do seu desempenho e compreensão da fala. Com esses recursos aprimorados, os alunos de idiomas podem obter insights mais profundos sobre suas vantagens e áreas para melhoria na pronúncia e expressão de conteúdo.

Pontuações de avaliação no modo de streaming

A avaliação de pronúncia suporta o modo de streaming ininterrupto. A demonstração do AI Studio permite até 60 minutos de gravação no modo streaming para avaliação. Contanto que você não pressione o botão parar gravação, o processo de avaliação não termina e você pode pausar e retomar a avaliação convenientemente.

A avaliação da pronúncia avalia vários aspetos da pronúncia. Na parte inferior do resultado da avaliação, você pode ver a pontuação de pronúncia como pontuação geral agregada, que inclui 4 subaspectos: pontuação de precisão, pontuação de fluência, pontuação de completude e pontuação de prosódia. No modo de streaming, como a pontuação de Precisão, a pontuação de Fluência e a pontuação de Prosódia variarão ao longo do tempo ao longo do processo de gravação, demonstramos uma abordagem no AI Studio para exibir a pontuação geral aproximada incrementalmente antes do final da avaliação, que foi ponderada apenas com a pontuação de Precisão, a pontuação de Fluência e a pontuação de Prosódia. A pontuação de Completude só é calculada no final da avaliação depois de pressionar o botão de parada, de modo que a pontuação geral de pronúncia final é agregada a partir da pontuação de Precisão, Pontuação de Fluência, Pontuação de Completude e Pontuação de Prosódia com peso.

Consulte os exemplos de demonstração abaixo para todo o processo de avaliação da pronúncia no modo de streaming.

Comece a gravar

À medida que você começa a gravar, as pontuações na parte inferior começam a mudar a partir de 0.

Captura de tela das pontuações gerais da avaliação ao começar a gravar.

Durante a gravação

Durante a gravação de um parágrafo longo, você pode pausar a gravação a qualquer momento. Pode continuar a avaliar a sua gravação desde que não prima o botão parar.

Captura de tela das pontuações gerais da avaliação durante a gravação.

Terminar a gravação

Depois de pressionar o botão de parada, você pode ver a pontuação de pronúncia, a pontuação de precisão, a pontuação de fluência, a pontuação de completude e a pontuação de prosódia na parte inferior.

Captura de tela das pontuações gerais da avaliação após a gravação.

Preços

Como linha de base, o uso da avaliação de pronúncia custa o mesmo que fala para texto para preços pré-pagos ou de nível de compromisso. Se você comprar uma camada de compromisso para fala para texto, o gasto para avaliação de pronúncia vai para cumprir o compromisso.

O recurso de avaliação de pronúncia também oferece outras pontuações que não estão incluídas na linha de base do preço de fala para texto: prosódia, gramática, tópico e vocabulário. Essas pontuações estão disponíveis como uma cobrança adicional acima do preço de fala para texto da linha de base. Para obter informações sobre preços, consulte preços de fala para texto.

Aqui está uma tabela de pontuações de avaliação de pronúncia disponíveis, quer esteja disponível nas avaliações com ou sem script, e se está incluída no preço de fala para texto da linha de base ou no preço do complemento.

Resultado Com ou sem script Incluído na linha de base fala para preço de texto?
Precisão Com e sem script Sim
Fluência Com e sem script Sim
Exaustividade Com script Sim
Miscue Com e sem script Sim
Prosódia Com e sem script Não
Gramática Apenas sem script Não
Tópico Apenas sem script Não
Vocabulário Apenas sem script Não

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que serão afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Próximos passos