Transcriptions - Transcribe

Transcreve o fluxo de áudio fornecido.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Parâmetros de URI

Nome Em Obrigatório Tipo Description
audio
formData True

file

binary

O áudio como um fluxo de bytes.

definition
formData True

string

Metadados para uma solicitação de transcrição rápida. Este campo contém um objeto serializado em JSON do tipo TranscribeDefinition.

endpoint
path True

string

Pontos de extremidade dos Serviços Cognitivos com suporte (protocolo e nome do host, por exemplo: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

A versão da API solicitada.

Respostas

Nome Tipo Description
200 OK

TranscribeResult

OKEY

Segurança

Ocp-Apim-Subscription-Key

Forneça a chave da conta de serviços cognitivos aqui.

Tipo: apiKey
Em: header

Authorization

Forneça um token de acesso do JWT retornado pelo STS desta região. Adicione o escopo de gerenciamento ao token adicionando a seguinte cadeia de caracteres de consulta à URL do STS: ?scope=speechservicesmanagement

Tipo: apiKey
Em: header

Exemplos

Transcribe an audio file

Solicitação de exemplo

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Resposta de exemplo

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definições

Nome Description
CombinedPhrases
Phrase

Uma frase transcrita.

TranscribeResult

O resultado da operação de transcrever.

Word

Palavra com carimbo de data/hora no formulário de exibição.

CombinedPhrases

Nome Tipo Description
channel

integer

O índice de canal baseado em 0. Só estará presente se a separação de canal estiver habilitada.

text

string

O texto transcrito completo para o canal.

Phrase

Uma frase transcrita.

Nome Tipo Description
channel

integer

O índice de canal baseado em 0. Só estará presente se a separação de canal estiver habilitada.

confidence

number

O valor de confiança da frase.

duration

integer

A duração da frase em milissegundos.

locale

string

A localidade da frase.

offset

integer

O deslocamento inicial da frase em milissegundos.

speaker

integer

O número do alto-falante. Só estará presente se a diarização do locutor estiver habilitada.

text

string

O texto transcrito da frase.

words

Word[]

As palavras que compõem a frase. Só estará presente se os carimbos de data/hora de nível de palavra estiverem habilitados.

TranscribeResult

O resultado da operação de transcrever.

Nome Tipo Description
combinedPhrases

CombinedPhrases[]

Os resultados combinados da transcrição para cada canal.

duration

integer

A duração do áudio em milissegundos.

phrases

Phrase[]

Os resultados da transcrição segmentados em frases.

Word

Palavra com carimbo de data/hora no formulário de exibição.

Nome Tipo Description
duration

integer

A duração da palavra em milissegundos.

offset

integer

O deslocamento inicial da palavra em milissegundos.

text

string

A palavra reconhecida, incluindo pontuação.