Перенос кода из версии 3.0 в версию 3.1 REST API
REST API преобразования речи в текст используется для транскрибирования пакетной службы и пользовательской речи. Изменения версии 3.0 до 3.1 описаны в следующих разделах.
Внимание
Речь в REST API версии 3.2 — это последняя версия, общедоступная. Предварительные версии 3.2-preview.1 и 3.2-preview.2* будут удалены в сентябре 2024 г. Речь в тексте REST API версии 3.1 будет прекращена на дату объявления. Речь в REST API версии 3.0 будет прекращена 1 апреля 2026 г.
Базовый путь
Необходимо обновить базовый путь в коде/speechtotext/v3.1
./speechtotext/v3.0
Например, чтобы получить базовые модели в регионе eastus
, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
него.
Обратите внимание на следующие другие изменения:
- Операция
/models/{id}/copyto
(включая "/") в версии 3.0 заменяется/models/{id}:copyto
операцией (включает ":") в версии 3.1. - Операция
/webhooks/{id}/ping
(включая "/") в версии 3.0 заменяется/webhooks/{id}:ping
операцией (включает ":") в версии 3.1. - Операция
/webhooks/{id}/test
(включая "/") в версии 3.0 заменяется/webhooks/{id}:test
операцией (включает ":") в версии 3.1.
Дополнительные сведения см . в разделе идентификаторы операций далее в этом руководстве.
Пакетное транскрибирование
Примечание.
Не используйте преобразование речи в текст REST API версии 3.0 для получения транскрибирования, созданного с помощью преобразования речи в текст REST API версии 3.1. Вы увидите сообщение об ошибке, например следующее: "Версия API не может использоваться для доступа к этому транскрибированию. Используйте API версии 3.1 или более поздней.
В операции Transcriptions_Create добавляются следующие три свойства:
- Это
displayFormWordLevelTimestampsEnabled
свойство можно использовать для включения отчетов меток времени на уровне слова в виде отображения результатов транскрибирования. Результаты возвращаются вdisplayWords
свойстве файла транскрибирования. - Свойство
diarization
можно использовать для указания минимального и максимального количества меток говорящего для создания при выполнении необязательной диаризации (разделение говорящего). Благодаря этой функции служба теперь может генерировать метки динамика для более чем двух динамиков. Чтобы использовать это свойство, необходимо также задатьdiarizationEnabled
дляtrue
свойства значение . С помощью API версии 3.1 мы увеличили число динамиков, которые можно определить путем диаризации из двух динамиков, поддерживаемых API версии 3.0. Рекомендуется сохранить количество докладчиков в возрасте до 30 для повышения производительности. - Свойство
languageIdentification
можно использовать для указания параметров идентификации языка для входных данных перед транскрибированием. Для идентификации языка поддерживается до 10 кандидатов языковых стандартов. Возвращаемое транскрибирование включает новоеlocale
свойство для распознанного языка или языкового стандарта, предоставленного вами.
Свойство filter
добавляется в операции Transcriptions_List, Transcriptions_ListFiles и Projects_ListTranscriptions . Выражение filter
можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName
, , description
, createdDateTime
lastActionDateTime
иstatus
locale
. Например: filter=createdDateTime gt 2022-02-01T11:00:00Z
Если вы используете веб-перехватчик для получения уведомлений о состоянии транскрибирования, обратите внимание, что веб-перехватчики, созданные через API версии 3.0, не могут получать уведомления для запросов транскрибирования версии 3.1. Для получения уведомлений о запросах транскрибирования версии 3.1 необходимо создать конечную точку веб-перехватчика с помощью API версии 3.1.
Настраиваемая речь
Наборы данных
Для отправки и управления несколькими блоками данных для набора данных добавляются следующие операции:
- Datasets_UploadBlock. Отправка блока данных для набора данных. Максимальный размер блока составляет 8МиБ.
- Datasets_GetBlocks. Получение списка загруженных блоков для этого набора данных.
- Datasets_CommitBlocks . Зафиксируйте список блокировок для завершения отправки набора данных.
Для поддержки адаптации модели с структурированным текстом в данных Markdown операция Datasets_Create теперь поддерживает тип данных LanguageMarkdown. Дополнительные сведения см. в разделе "Отправка наборов данных".
Модели
Операции Models_ListBaseModels и Models_GetBaseModel возвращают сведения о типе адаптации, поддерживаемом каждой базовой моделью.
"features": {
"supportsAdaptationsWith": [
"Acoustic",
"Language",
"LanguageMarkdown",
"Pronunciation"
]
}
Операция Models_Create имеет новое customModelWeightPercent
свойство, в котором можно указать вес, используемый при использовании пользовательской языковой модели (обученной из простых или структурированных текстовых данных) в сочетании с базовой языковой моделью. Допустимые значения — целые числа от 1 до 100. В настоящее время значение по умолчанию равно 30.
Свойство filter
добавляется в следующие операции:
- Datasets_List
- Datasets_ListFiles
- Endpoints_List
- Evaluations_List
- Evaluations_ListFiles
- Models_ListBaseModels
- Models_ListCustomModels
- Projects_List
- Projects_ListDatasets
- Projects_ListEndpoints
- Projects_ListEvaluations
- Projects_ListModels
Выражение filter
можно использовать для выбора подмножества доступных ресурсов. Вы можете фильтровать по displayName
, , description
, lastActionDateTime
createdDateTime
, locale
status
и kind
. Например: filter=locale eq 'en-US'
Добавлена операция Models_ListFiles для получения файлов модели, определяемой указанным идентификатором.
Добавлена операция Models_GetFile , чтобы получить один конкретный файл (идентифицируемый с помощью fileId) из модели (идентифицируется с идентификатором). Это позволяет получить файл ModelReport, содержащий информацию о данных, обработанных во время обучения.
Идентификаторы операций
Необходимо обновить базовый путь в коде/speechtotext/v3.1
./speechtotext/v3.0
Например, чтобы получить базовые модели в регионе eastus
, используйте https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base
вместо https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base
него.
Имя каждого из них operationId
в версии 3.1 префиксируется именем объекта. Например, operationId
для "Создать модель" было изменено с CreateModel в версии 3.0 на Models_Create в версии 3.1.
Операция /models/{id}/copyto
(включая "/") в версии 3.0 заменяется /models/{id}:copyto
операцией (включает ":") в версии 3.1.
Операция /webhooks/{id}/ping
(включая "/") в версии 3.0 заменяется /webhooks/{id}:ping
операцией (включает ":") в версии 3.1.
Операция /webhooks/{id}/test
(включая "/") в версии 3.0 заменяется /webhooks/{id}:test
операцией (включает ":") в версии 3.1.