Что такое текст OpenAI для речевых голосов?

Как и голосовая речь Azure AI, текст OpenAI для голосовых функций обеспечивает высококачественный синтез речи, чтобы преобразовать написанный текст в естественный звуковой звук. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.

Текст OpenAI для голосовой речи доступен через два варианта модели: Neural и NeuralHD.

  • Neural: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качества NeuralHD.
  • NeuralHD: оптимизировано для качества.

Доступный текст для голосов речи в службах ИИ Azure

Вы можете спросить: Если вы хотите использовать текст OpenAI для голосовой речи, следует ли использовать его через службу Azure OpenAI или с помощью службы "Речь с помощью искусственного интеллекта Azure"? Каковы сценарии, которые помогут мне использовать один или другой?

Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять параметры и различия между доступным текстом для речевых голосов в службах ИИ Azure.

Вы можете выбрать из следующего текста голосовые голоса в службах ИИ Azure:

  • Текст OpenAI для речевых голосов в Службе OpenAI Azure. Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
  • Текст OpenAI для голоса речи в службе "Речь ИИ Azure". Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
  • Текст службы "Речь ИИ Azure" для голосовой речи. Доступно в десятках регионов. См. список регионов.

Текст OpenAI для речевых голосов с помощью Службы Azure OpenAI или с помощью службы "Речь СИ Azure"?

Если вы хотите использовать текст OpenAI для речевых голосов, вы можете выбрать, следует ли использовать их с помощью Azure OpenAI или с помощью службы "Речь СИ Azure". Вы можете посетить коллекцию голосовых данных, чтобы слушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом с помощью создания аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.

Ниже приведено сравнение функций между текстом OpenAI и голосовой речью в Службе OpenAI Azure и текстом OpenAI с голосами речи в службе "Речь ИИ Azure".

Функция Служба Azure OpenAI (голоса OpenAI) Распознавание речи СИ Azure (голоса OpenAI) Голос службы "Речь с помощью искусственного интеллекта Azure"
Регион Центрально-северная часть США, Центральная Швеция Центрально-северная часть США, Центральная Швеция Доступно в десятках регионов. См. список регионов.
Разнообразие голосовых данных 6 12 Более 500
Многоязычный номер голоса 6 12 49
Максимальное число языкового охвата 57 57 77
Поддержка языка разметки синтеза речи (SSML) Не поддерживается Поддержка подмножества элементов SSML. Поддержка полного набора SSML в службе "Речь ИИ Azure".
Варианты разработки REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API
Вариант развертывания Учетные записи Учетные записи Облачные, внедренные, гибридные и контейнеры.
Синтез в режиме реального времени или пакетной обработки Реальное время Синтез в режиме реального времени и пакетной обработки Синтез в режиме реального времени и пакетной обработки
Задержка больше 500 мс больше 500 мс менее 300 мс
Частота выборки синтезированного звука 24 кГц 8, 16, 24 и 48 кГц 8, 16, 24 и 48 кГц
Формат звука вывода речи opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

В службе "Речь ИИ Azure" доступны дополнительные функции и возможности, недоступные в голосовых функциях OpenAI. Например:

Элементы SSML, поддерживаемые текстом OpenAI для голосов речи в службе "Речь ИИ Azure"

Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.

В следующей таблице описаны элементы языка разметки синтеза речи (SSML), поддерживаемые текстом OpenAI для речевых голосов в речи искусственного интеллекта Azure. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML.

Имя элемента SSML Description
<speak> Заключает весь контент, который нужно провести. Это корневой элемент документа SSML.
<voice> Задает голос, используемый для вывода текста в речь.
<sub> Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента.
<say-as> Указывает тип контента, например число или дату текста элемента.

interpret-as Для этого элемента interpret-as="name"поддерживаются все значения свойств. Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML.
<s> Обозначает предложения.
<lang> Указывает языковой стандарт по умолчанию для языка, который требуется говорить нейронным голосом.
<break> Используется для переопределения поведения разрывов или пауз по умолчанию между словами.