Что собой представляет служба "Речь"

Служба "Речь" предоставляет возможность преобразования речи в текст и текст в речь с ресурсом "Речь". Вы можете транскрибировать речь в текст с высокой точностью, создавать естественный звук текста для голосов, переводить речевой звук и использовать распознавание говорящего во время бесед.

Изображение фрагментов, выделяющих некоторые возможности службы

Создавайте настраиваемые голоса, добавляйте определенные слова в базовый словарь или разрабатывайте собственные модели. Запускайте службу "Речь" где угодно — в облаке или в контейнерах на периферии. Речь позволяет легко включить приложения, инструменты и устройства с помощью интерфейса командной строки службы "Речь", пакета SDK службы "Речь" и REST API.

Служба "Речь" доступна для различных языков, регионов и ценовых интервалов.

Сценарии службы "Речь"

Распространенные сценарии использования службы "Речь":

  • Создание субтитров: узнайте, как синхронизировать субтитры с входящим звуком, применять фильтры ненормативной лексики, получать частичные результаты, применять настройки и определять язык речи в сценариях с использованием нескольких языков.
  • Создание аудиосодержимого: нейронные голосовые модели могут совершать взаимодействие с чат-ботами и голосовыми помощниками более естественным и приятным образом. Они позволяют преобразовывать цифровой текст из электронных книг в аудиокниги, а также помогают совершенствовать автомобильные системы навигации.
  • Центр обработки вызовов: транскрибируйте вызовы в реальном времени или пакетном режиме, скрывайте личную информацию и извлекайте аналитические сведения, такие как тональность. Это поможет вам обрабатывать варианты использования центра обработки вызовов.
  • Язык обучения. Предоставление отзывов об оценке произношения для учащихся языка, поддержка транскрибирования в режиме реального времени для бесед удаленного обучения и чтение вслух учебных материалов с нейронными голосами.
  • Голосовые помощники: создание естественных, таких как диалоговые интерфейсы для своих приложений и возможностей. Функция голосового помощника обеспечивает быстрое и надежное взаимодействие между устройством и реализацией помощника.

Корпорация Майкрософт использует речь для многих сценариев, таких как субтитры в Teams, диктовка в Office 365 и чтение вслух в браузере Microsoft Edge.

Изображение: логотипы продуктов Microsoft, в которых используется служба

Возможности службы "Речь"

В этих разделах приведены сведения о функциях службы "Речь" со ссылками для получения дополнительных сведений.

Преобразование речи в текст

Используйте речь для преобразования звука в текст в режиме реального времени или асинхронно с пакетной транскрибированием.

Совет

Вы можете попробовать речь в режиме реального времени на текст в Speech Studio без регистрации или написания кода.

Преобразуйте звук в текст из различных источников, включая микрофоны, звуковые файлы и хранилище BLOB-объектов. Используйте диаризацию говорящего, чтобы определить, кто сказал, что и когда. Получайте читаемые расшифровки с автоматическим форматированием и знаками препинания.

Базовая модель может быть недостаточно, если звук содержит внешний шум или включает в себя многочисленные отраслевые и доменные жаргоны. В такой ситуации можно создать и обучить пользовательскую модель речи с применением акустических и языковых данных и данных о произношении. Пользовательские модели речи являются частными и могут обеспечить конкурентное преимущество.

Речь в режиме реального времени к тексту

При использовании речи в режиме реального времени звук транскрибируется как речь распознается с микрофона или файла. Используйте речь в режиме реального времени для приложений, которые должны транскрибировать звук в режиме реального времени, например:

API быстрого транскрибирования (предварительная версия)

API быстрого транскрибирования используется для расшифровки звуковых файлов с синхронно и гораздо быстрее, чем звук в режиме реального времени. Используйте быструю транскрибирование в сценариях, необходимых для расшифровки аудиозаписи как можно быстрее с прогнозируемой задержкой, например:

  • Быстрое транскрибирование звука или видео, субтитры и редактирование.
  • Видеотрансляции

Примечание.

API быстрого транскрибирования доступен только через речь в текстовом REST API версии 2024-05-15-preview.

Чтобы приступить к работе с быстрым транскрибированием, ознакомьтесь с api быстрого транскрибирования (предварительная версия).>

Пакетное транскрибирование

Пакетное транскрибирование используется для транскрибирования большого объема звука в хранилище. Вы можете указать эти звуковые файлы с помощью URI подписанного URL-адреса (SAS) и асинхронно получать результаты транскрибирования. Используйте пакетное транскрибирование для приложений, которые должны выполнять массовое транскрибирование звука, например:

  • Транскрибирование, субтитры или субтитры для предварительно закодированного звука
  • Аналитика после вызова центра контактов
  • Диаризация

Преобразование текста в речь

С помощью текста в речь можно преобразовать входной текст в человека, как синтезированная речь. Используйте нейронные голоса, которые являются людьми, такими как голоса, на которых работают глубокие нейронные сети. Используйте Speech Synthesis Markup Language (язык разметки синтеза речи, SSML), который позволяет точно настраивать тон, произношение, скорость речи, громкость и другие параметры.

  • Готовые нейронные голоса: готовые голоса, очень похожие на настоящие. Проверьте предварительно созданные образцы нейронной голосовой связи в коллекции голосовых данных и определите правильный голос для ваших бизнес-потребностей.
  • Пользовательский нейронный голос: помимо предварительно созданных нейронных голосов, которые выходят из коробки, вы также можете создать пользовательский нейронный голос, который распознается и уникален для вашего бренда или продукта. Пользовательские нейронные голоса являются частными и могут обеспечить конкурентное преимущество. Ознакомиться с примерами пользовательских нейронных голосов можно здесь.

Перевод речи

Перевод речи позволяет применять в инструментах, приложениях и устройствах решение для перевода устной речи на многих языках в режиме реального времени. Используйте эту функцию для преобразования речи и речи в текст.

Идентификация языка

Используется для определения языков, на которых говорят в аудиозаписях, при сравнении со списком поддерживаемых языков. Используйте идентификацию языка самостоятельно, с распознаванием речи в текст или с переводом речи.

Распознавание говорящих

Функция распознавания говорящего предлагает алгоритмы, которые проверяют и определяют говорящего по уникальным голосовым характеристикам. Распознавание говорящего используется для ответа на вопрос: "Кто говорит?".

Оценка произношения

Оценка произношения представляет собой оценку речи и предлагает говорящим отзывы о точности и владении языком лица, чья речь записана в формате аудио. Оценка произношения позволяет лицам, изучающим язык, тренироваться, получать мгновенные отзывы и улучшать произношение, чтобы уверенно говорить и излагать информацию.

Распознавание намерений говорящего

Распознавание намерений. Использование речи для текста с пониманием языка беседы для получения намерений пользователей от транскрибированного распознавания речи и действия с голосовыми командами.

Развертывание и представительство

Функции распознавания речи Azure можно развернуть в облаке или локальной среде.

С помощью контейнеров вы можете разместить службу ближе к данным для обеспечения безопасности и соответствия требованиям, а также получения других эксплуатационных преимуществ.

Для некоторых государственных организаций и их партнеров доступна возможность развертывания службы "Речь" в национальных облаках. Например, облако Azure для государственных организаций доступно для государственных организаций США и их партнеров. Microsoft Azure, обслуживаемая облаком 21Vianet, доступна организациям с бизнес-присутствием в Китае. Дополнительные сведения см. в разделе о национальных облаках.

Схема, показывающая, где можно развернуть службу

Использование службы "Речь" в приложении

Speech Studio — это набор средств на основе пользовательского интерфейса для создания и интеграции функций из службы "Речь ИИ Azure" в приложениях. Вы создаете проекты в Speech Studio без использования кода, а затем даете ссылку на ресурсы в своих приложениях с помощью пакета SDK службы "Речь", CLI службы "Речь" или различных REST API.

Интерфейс командной строки службы "Речь" — это средство для использования службы "Речь" без написания кода. В интерфейсе командной строки службы "Речь" доступно большинство функций из пакета SDK службы "Речь", а некоторые дополнительные функции и настройки упрощены.

Пакет средств разработки (SDK) службы "Речь" предоставляет доступ к целому ряду возможностей службы "Речь", которые позволяют разрабатывать приложения с поддержкой речи. Пакет SDK службы "Речь" также доступен на многих языках программирования и на всех платформах.

В некоторых случаях использовать пакет SDK службы "Речь" нельзя или нецелесообразно. В таких случаях для доступа к службе "Речь" можно использовать REST API. Например, вы можете использовать REST API для пакетного транскрибирования и распознавания говорящего.

Начало работы

Мы предлагаем краткие руководства для наиболее популярных языков программирования. Каждое краткое руководство предназначено для изучения основных конструктивных шаблонов и позволяет получить рабочий код менее чем за 10 минут. См. следующий список, чтобы перейти к краткому руководству для каждой функции.

Примеры кода

Пример кода для службы "Речь" доступен на GitHub. В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание, а также работа с пользовательскими моделями. Используйте эти ссылки, чтобы просмотреть примеры для пакета SDK и REST:

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Преобразование речи в текст

Оценка произношения

Пользовательский нейронный голос

Распознавание говорящего

Следующие шаги