OpenAI metinden konuşma seslerine nelerdir?
Azure AI Konuşma sesleri gibi OpenAI metni de konuşma seslerine yazılı metni doğal sesli sese dönüştürmek için yüksek kaliteli konuşma sentezi sağlar. Bu, çevreleyici ve etkileşimli kullanıcı deneyimleri için çok çeşitli olanakların kilidini açar.
OpenAI metinden konuşma seslerine iki model çeşidi aracılığıyla kullanılabilir: Neural
ve NeuralHD
.
Neural
: En düşük gecikme süresine sahip ancak değerindenNeuralHD
daha düşük kaliteye sahip gerçek zamanlı kullanım örnekleri için iyileştirilmiştir.NeuralHD
: Kalite için iyileştirilmiştir.
Azure AI hizmetlerinde konuşma seslerine metin ekleme
Şunu sorabilirsiniz: Konuşma sesi için OpenAI metni kullanmak istersem, bunu Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?
Her ses modeli, özel gereksinimlerinize en uygun olanı seçmenize olanak sağlayan farklı özellikler ve özellikler sunar. Azure AI hizmetlerinde kullanılabilir metin okuma sesleri arasındaki seçenekleri ve farkları anlamak istiyorsunuz.
Azure AI hizmetlerinde aşağıdaki metinden konuşma seslerine seçim yapabilirsiniz:
- Azure OpenAI Hizmeti'nde openAI metniyle konuşma seslerine geçiş. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
- Azure AI Konuşma'da konuşma seslerine openAI metni. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
- Azure AI Konuşma tanıma hizmeti metni ile konuşma seslerine. Onlarca bölgede kullanılabilir. Bölge listesine bakın.
Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla konuşma seslerine OpenAI metni mi?
Konuşma seslerinde OpenAI metni kullanmak istiyorsanız, bunları Azure OpenAI veya Azure AI Konuşma aracılığıyla kullanmayı seçebilirsiniz. Ses İçeriği Oluşturma özelliğini kullanarak Azure OpenAI ses örneklerini dinlemek veya konuşmayı kendi metninizle sentezlemek için Ses Galerisi'ni ziyaret edebilirsiniz. Ses çıkışı her iki durumda da aynıdır ve iki hizmet arasında yalnızca birkaç özellik farkı vardır. Ayrıntılar için aşağıdaki tabloya bakın.
Aşağıda, OpenAI metni ile Azure OpenAI Hizmeti'ndeki konuşma sesleri arasındaki özelliklerin ve Azure AI Konuşma'daki OpenAI metninin konuşma sesleriyle karşılaştırmasını bulabilirsiniz.
Özellik | Azure OpenAI Hizmeti (OpenAI sesleri) | Azure AI Konuşma (OpenAI sesleri) | Azure AI Konuşma sesleri |
---|---|---|---|
Bölge | Orta Kuzey ABD, Orta İsveç | Orta Kuzey ABD, Orta İsveç | Onlarca bölgede kullanılabilir. Bölge listesine bakın. |
Ses çeşitliliği | 6 | 12 | 500’den fazla |
Çok dilli ses numarası | 6 | 12 | 49 |
Maksimum çok dilli dil kapsamı | 57 | 57 | 77 |
Konuşma Sentezi biçimlendirme dili (SSML) desteği | Desteklenmez | SSML öğelerinin bir alt kümesi için destek. | Azure AI Konuşmasında tam SSML kümesi desteği. |
Geliştirme seçenekleri | REST API | Konuşma SDK'sı, Konuşma CLI'sı, REST API | Konuşma SDK'sı, Konuşma CLI'sı, REST API |
Dağıtım seçeneği | Yalnızca bulut | Yalnızca bulut | Bulut, tümleşik, hibrit ve kapsayıcılar. |
Gerçek zamanlı veya toplu sentez | Gerçek zamanlı | Gerçek zamanlı ve toplu sentez | Gerçek zamanlı ve toplu sentez |
Gecikme süresi | 500 ms'den büyük | 500 ms'den büyük | 300 ms'den az |
Sentezlenmiş sesin örnek hızı | 24 kHz | 8, 16, 24 ve 48 kHz | 8, 16, 24 ve 48 kHz |
Konuşma çıkışı ses biçimi | opus, mp3, aac, flac | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Azure AI Konuşma'da OpenAI sesleriyle kullanılamayan ek özellikler ve özellikler vardır. Örneğin:
- Azure AI Konuşma'da OpenAI metninden konuşma seslerine yalnızca SSML öğelerinin bir alt kümesini destekler. Azure AI Konuşma sesleri, tüm SSML öğelerini destekler.
- Azure AI Konuşma, sözcük sınırı olaylarını destekler. OpenAI sesleri sözcük sınırı olaylarını desteklemez.
Azure AI Konuşmasında OpenAI metni ile konuşma seslerine desteklenen SSML öğeleri
Giriş metniyle Konuşma Sentezi İşaretlemeyi Dili (SSML), metinden konuşmaya çıkışın yapısını, içeriğini ve diğer özelliklerini belirler. Örneğin, SSML kullanarak bir paragraf, tümce, kesme veya duraklama ya da sessizlik tanımlayabilirsiniz. Metni yer işareti veya viseme gibi daha sonra uygulamanız tarafından işlenebilen olay etiketleriyle kaydırabilirsiniz.
Aşağıdaki tabloda, OpenAI metni tarafından desteklenen Konuşma Sentezi İşaretlemeyi Dili (SSML) öğeleri Azure AI konuşmasında konuşma seslerine özetlenmiştir. OpenAI sesleri için yalnızca aşağıdaki SSML etiketleri alt kümesi desteklenir. Daha fazla bilgi için bkz . SSML belge yapısı ve olayları .
SSML öğe adı | Açıklama |
---|---|
<speak> |
Konuşulacak içeriğin tamamını içine alır. SSML belgesinin kök öğesidir. |
<voice> |
Metinden konuşmaya çıkışı için kullanılan sesi belirtir. |
<sub> |
Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir. |
<say-as> |
Öğenin metninin sayı veya tarih gibi içerik türünü gösterir.interpret-as dışında bu öğe interpret-as="name" için tüm özellik değerleri desteklenir. Örneğin desteklenir <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , ancak <say-as interpret-as="name">ED</say-as> desteklenmez. Daha fazla bilgi için bkz . SSML ile söyleniş. |
<s> |
Cümleleri belirtir. |
<lang> |
Sinir sesinin konuşmasını istediğiniz dil için varsayılan yerel ayarı gösterir. |
<break> |
Sözcükler arasındaki kesme veya duraklamaların varsayılan davranışını geçersiz kılmak için kullanın. |