Что такое текст OpenAI для речевых голосов?
Как и голосовая речь Azure AI, текст OpenAI для голосовых функций обеспечивает высококачественный синтез речи, чтобы преобразовать написанный текст в естественный звуковой звук. Это разблокирует широкий спектр возможностей для иммерсивного и интерактивного взаимодействия с пользователем.
Текст OpenAI для голосовой речи доступен через два варианта модели: Neural
и NeuralHD
.
Neural
: оптимизировано для вариантов использования в режиме реального времени с наименьшей задержкой, но ниже качестваNeuralHD
.NeuralHD
: оптимизировано для качества.
Доступный текст для голосов речи в службах ИИ Azure
Вы можете спросить: Если вы хотите использовать текст OpenAI для голосовой речи, следует ли использовать его через службу Azure OpenAI или с помощью службы "Речь с помощью искусственного интеллекта Azure"? Каковы сценарии, которые помогут мне использовать один или другой?
Каждая модель голосовой связи предлагает различные функции и возможности, позволяя выбрать наиболее подходящий для ваших потребностей. Вы хотите понять параметры и различия между доступным текстом для речевых голосов в службах ИИ Azure.
Вы можете выбрать из следующего текста голосовые голоса в службах ИИ Azure:
- Текст OpenAI для речевых голосов в Службе OpenAI Azure. Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
- Текст OpenAI для голоса речи в службе "Речь ИИ Azure". Доступно в следующих регионах: центрально-северная часть США и Центральная Швеция.
- Текст службы "Речь ИИ Azure" для голосовой речи. Доступно в десятках регионов. См. список регионов.
Текст OpenAI для речевых голосов с помощью Службы Azure OpenAI или с помощью службы "Речь СИ Azure"?
Если вы хотите использовать текст OpenAI для речевых голосов, вы можете выбрать, следует ли использовать их с помощью Azure OpenAI или с помощью службы "Речь СИ Azure". Вы можете посетить коллекцию голосовых данных, чтобы слушать примеры голосов Azure OpenAI или синтезировать речь с собственным текстом с помощью создания аудиоконтента. Выходные данные звука идентичны в обоих случаях, при этом существует лишь несколько различий между двумя службами. Дополнительные сведения см. в таблице ниже.
Ниже приведено сравнение функций между текстом OpenAI и голосовой речью в Службе OpenAI Azure и текстом OpenAI с голосами речи в службе "Речь ИИ Azure".
Функция | Служба Azure OpenAI (голоса OpenAI) | Распознавание речи СИ Azure (голоса OpenAI) | Голос службы "Речь с помощью искусственного интеллекта Azure" |
---|---|---|---|
Регион | Центрально-северная часть США, Центральная Швеция | Центрально-северная часть США, Центральная Швеция | Доступно в десятках регионов. См. список регионов. |
Разнообразие голосовых данных | 6 | 12 | Более 500 |
Многоязычный номер голоса | 6 | 12 | 49 |
Максимальное число языкового охвата | 57 | 57 | 77 |
Поддержка языка разметки синтеза речи (SSML) | Не поддерживается | Поддержка подмножества элементов SSML. | Поддержка полного набора SSML в службе "Речь ИИ Azure". |
Варианты разработки | REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API | Пакет SDK службы "Речь", интерфейс командной строки службы "Речь", REST API |
Вариант развертывания | Учетные записи | Учетные записи | Облачные, внедренные, гибридные и контейнеры. |
Синтез в режиме реального времени или пакетной обработки | Реальное время | Синтез в режиме реального времени и пакетной обработки | Синтез в режиме реального времени и пакетной обработки |
Задержка | больше 500 мс | больше 500 мс | менее 300 мс |
Частота выборки синтезированного звука | 24 кГц | 8, 16, 24 и 48 кГц | 8, 16, 24 и 48 кГц |
Формат звука вывода речи | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
В службе "Речь ИИ Azure" доступны дополнительные функции и возможности, недоступные в голосовых функциях OpenAI. Например:
- Текст OpenAI для голосов речи в службе "Речь ИИ Azure" поддерживает только подмножество элементов SSML. Голоса службы "Речь ИИ Azure" поддерживают полный набор элементов SSML.
- Служба "Речь ИИ Azure" поддерживает события границ слов. Голоса OpenAI не поддерживают события границ слов.
Элементы SSML, поддерживаемые текстом OpenAI для голосов речи в службе "Речь ИИ Azure"
Язык разметки синтеза речи (SSML) с входным текстом определяет структуру, содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, которые можно обработать позже приложением.
В следующей таблице описаны элементы языка разметки синтеза речи (SSML), поддерживаемые текстом OpenAI для речевых голосов в речи искусственного интеллекта Azure. Для голосов OpenAI поддерживаются только следующие подмножества тегов SSML. Дополнительные сведения см. в структуре и событиях документов SSML.
Имя элемента SSML | Description |
---|---|
<speak> |
Заключает весь контент, который нужно провести. Это корневой элемент документа SSML. |
<voice> |
Задает голос, используемый для вывода текста в речь. |
<sub> |
Указывает, что текстовое значение атрибута псевдонима должно быть произнесено вместо заключенного текста элемента. |
<say-as> |
Указывает тип контента, например число или дату текста элемента.interpret-as Для этого элемента interpret-as="name" поддерживаются все значения свойств. Например, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> поддерживается, но <say-as interpret-as="name">ED</say-as> не поддерживается. Дополнительные сведения см. в статье об произношении с помощью SSML. |
<s> |
Обозначает предложения. |
<lang> |
Указывает языковой стандарт по умолчанию для языка, который требуется говорить нейронным голосом. |
<break> |
Используется для переопределения поведения разрывов или пауз по умолчанию между словами. |