Что такое настраиваемая речь?
С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.
Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.
Пользовательскую модель можно использовать для расширения базовой модели, чтобы улучшить распознавание предметно-ориентированной лексики, характерной для приложения, путем предоставления текстовых данных для обучения модели. Ее также можно использовать для улучшения распознавания на основе определенных условий звука приложения, предоставляя звуковые данные с референтными транскрибированиями.
Модель также можно обучить структурированным текстом, если данные соответствуют шаблону, чтобы указать пользовательские произношения, а также настроить форматирование текста с помощью настраиваемой нормализации текста, настраиваемой перезаписи и настраиваемой фильтрации ненормативной лексики.
Как это работает?
С помощью пользовательской речи можно отправлять собственные данные, тестировать и обучать пользовательскую модель, сравнивать точность между моделями и развертывать модель в настраиваемую конечную точку.
Ниже приведены дополнительные сведения о последовательности шагов, показанных на предыдущей схеме:
- Создайте проект и выберите модель. Используйте ресурс службы "Речь", создаваемый в портал Azure. Если вы обучаете пользовательскую модель с звуковыми данными, выберите регион ресурсов службы "Речь" с выделенным оборудованием для обучения звуковых данных. Дополнительные сведения см. в сносках в таблице регионов .
- Загрузка тестовых данных. Отправьте тестовые данные для оценки речи в текстовое предложение для приложений, инструментов и продуктов.
- Проверка качества распознавания речи. Используйте Speech Studio для воспроизведения загруженных аудиофайлов и проверки качества распознавания ваших тестовых данных.
- Количественное тестирование модели. Оцените и улучшите точность преобразования речи в текстовую модель. Служба "Речь" предоставляет количественную частоту ошибок слова (WER), которую можно использовать для определения необходимости дополнительного обучения.
- Train a model (Обучение модели). Предоставьте письменные расшифровки и связанный текст вместе с соответствующими звуковыми данными. Тестирование модели до и после обучения является необязательным, но рекомендуется.
Примечание.
Вы оплачиваете использование пользовательской модели речи и размещение конечных точек. Вы также будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на речь azure AI и в разделе "Плата за адаптацию" в руководстве по миграции с текстом 3.2.
- Развертывание модели. Когда результаты теста будут удовлетворительными, разверните модель в пользовательской конечной точке. За исключением пакетного транскрибирования, необходимо развернуть пользовательскую конечную точку для использования пользовательской модели речи.
Совет
Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".
Ответственное применение ИИ
Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.
- Примечание о прозрачности и сценарии использования
- Характеристики и ограничения
- Интеграция и ответственное использование
- Данные, конфиденциальность и безопасность