API REST de fala para texto
A API REST de fala para texto é usada para transcrição em lote e fala personalizada.
Importante
Speech to text REST API v3.2 é a versão mais recente disponível em geral. As versões de visualização 3.2-preview.1 e 3.2-preview.2* serão removidas em setembro de 2024. A API REST de fala para texto v3.1 será desativada em uma data a ser anunciada. Para obter mais informações sobre a atualização, consulte o guia de migração da API REST de fala para texto v3.1 para v3.2 . A API REST de fala para texto v3.0 será desativada em 1º de abril de 2026. Para obter mais informações sobre atualização, consulte os guias de migração Speech to text REST API v3.0 to v3.1 e v3.1 to v3.2 .
Use a API REST de fala para texto para:
- Transcrição rápida: transcreva arquivos de áudio com resultados de retorno de forma síncrona e muito mais rápida do que o áudio em tempo real. Use a API de transcrição rápida (/speechtotext/transcriptions:transcribe) nos cenários em que você precisa da transcrição de uma gravação de áudio o mais rápido possível com latência previsível, como transcrição rápida de áudio ou vídeo ou tradução de vídeo.
- Fala personalizada: carregue seus próprios dados, teste e treine um modelo personalizado, compare a precisão entre modelos e implante um modelo em um ponto de extremidade personalizado. Copie modelos para outras assinaturas se quiser que os colegas tenham acesso a um modelo criado por você ou se quiser implantar um modelo em mais de uma região.
- Transcrição em lote: transcreva arquivos de áudio como um lote de várias URLs ou de um contêiner do Azure.
A API REST de fala para texto inclui recursos como:
- Obtenha logs para cada ponto de extremidade se os logs forem solicitados para esse ponto de extremidade.
- Solicite o manifesto dos modelos criados para configurar contêineres locais.
- Carregue dados de contas de armazenamento do Azure usando um URI de assinatura de acesso compartilhado (SAS).
- Traga o seu próprio armazenamento. Use suas próprias contas de armazenamento para logs, arquivos de transcrição e outros dados.
- Algumas operações suportam notificações de webhook. Você pode registrar seus webhooks para onde as notificações são enviadas.
Transcrição em lotes
Os seguintes grupos de operação são aplicáveis para transcrição de lote.
Grupo de operação | Description |
---|---|
Modelos | Use modelos base ou modelos personalizados para transcrever arquivos de áudio. Você pode usar modelos com fala personalizada e transcrição em lote. Por exemplo, você pode usar um modelo treinado com um conjunto de dados específico para transcrever arquivos de áudio. Consulte Treinar um modelo e o ciclo de vida do modelo de fala personalizado para obter exemplos de como treinar e gerenciar modelos de fala personalizados. |
Transcrições | Use transcrições para transcrever uma grande quantidade de áudio armazenado. Ao usar a transcrição em lote, você envia vários arquivos por solicitação ou aponta para um contêiner de Armazenamento de Blob do Azure com os arquivos de áudio a serem transcritos. Consulte Criar uma transcrição para obter exemplos de como criar uma transcrição a partir de vários arquivos de áudio. |
Ganchos da Web | Use ganchos da Web para receber notificações sobre eventos de criação, processamento, conclusão e exclusão. Você pode usar ganchos da Web com fala personalizada e transcrição em lote. Os ganchos da Web aplicam-se a conjuntos de dados, pontos de extremidade, avaliações, modelos e transcrições. |
Fala personalizada
Os grupos de operações a seguir são aplicáveis para fala personalizada.
Grupo de operação | Description |
---|---|
Conjuntos de dados | Use conjuntos de dados para treinar e testar modelos de fala personalizados. Por exemplo, você pode comparar o desempenho de uma fala personalizada treinada com um conjunto de dados específico com o desempenho de um modelo base ou modelo de fala personalizado treinado com um conjunto de dados diferente. Consulte Carregar conjuntos de dados de treinamento e teste para obter exemplos de como carregar conjuntos de dados. |
Parâmetros de avaliação | Implante modelos de fala personalizados em pontos de extremidade. Você deve implantar um ponto de extremidade personalizado para usar um modelo de fala personalizado. Consulte Implantar um modelo para obter exemplos de como gerenciar pontos de extremidade de implantação. |
Avaliações | Use avaliações para comparar o desempenho de diferentes modelos. Por exemplo, você pode comparar o desempenho de um modelo de fala personalizado treinado com um conjunto de dados específico com o desempenho de um modelo base ou de um modelo personalizado treinado com um conjunto de dados diferente. Consulte a qualidade e a precisão do reconhecimento do teste para obter exemplos de como testar e avaliar modelos de fala personalizados. |
Modelos | Use modelos base ou modelos personalizados para transcrever arquivos de áudio. Você pode usar modelos com fala personalizada e transcrição em lote. Por exemplo, você pode usar um modelo treinado com um conjunto de dados específico para transcrever arquivos de áudio. Consulte Treinar um modelo e o ciclo de vida do modelo de fala personalizado para obter exemplos de como treinar e gerenciar modelos de fala personalizados. |
Projetos | Use projetos para gerenciar modelos de fala personalizados, conjuntos de dados de treinamento e teste e pontos de extremidade de implantação. Projetos de fala personalizados contêm modelos, conjuntos de dados de treinamento e teste e pontos de extremidade de implantação. Cada projeto é específico para uma localidade. Por exemplo, você pode criar um projeto para inglês nos Estados Unidos. Consulte Criar um projeto para obter exemplos de como criar projetos. |
Ganchos da Web | Use ganchos da Web para receber notificações sobre eventos de criação, processamento, conclusão e exclusão. Você pode usar ganchos da Web com fala personalizada e transcrição em lote. Os ganchos da Web aplicam-se a conjuntos de dados, pontos de extremidade, avaliações, modelos e transcrições. |
Estado de funcionamento dos serviços
A integridade do serviço fornece informações sobre a integridade geral do serviço e dos subcomponentes. Consulte Estado de Funcionamento do Serviço para obter mais informações.