Yüksek tanımlı sesler nedir? (Önizleme)
Not
Bu özellik şu anda genel önizlemededir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.
Azure AI Konuşma, nöral metnin yüksek tanımlı (HD) seslere girişiyle metinden konuşmaya teknolojisi alanında ilerlemeye devam ediyor. HD sesleri içeriği anlayabilir, giriş metnindeki duyguları otomatik olarak algılayabilir ve konuşma tonunu yaklaşımla eşleşecek şekilde gerçek zamanlı olarak ayarlayabilir. HD sesler, nöral (ve HD olmayan) muadillerinden tutarlı bir ses kişisi tutar ve gelişmiş özelliklerle daha da fazla değer sunar.
Nöral metnin HD seslerini konuşmaya yönelik temel özellikleri
Azure AI Konuşma HD seslerinin temel özellikleri şunlardır:
Önemli özellikler | Açıklama |
---|---|
İnsan benzeri konuşma oluşturma | Nöral metinden konuşmaya HD sesler yüksek oranda doğal ve insan benzeri konuşmalar oluşturabilir. Model, milyonlarca saatlik çok dilli veriler üzerinde eğitilir ve el ile ayarlamalar yapmadan giriş metnini doğru bir şekilde yorumlamasına ve uygun duygu, tempo ve ritimle konuşma oluşturmasına olanak tanır. |
Konuşma | Nöral metinden konuşmaya HD ses, kendiliğinden duraklamalar ve vurgu dahil olmak üzere doğal konuşma desenlerini çoğaltabilir. Konuşma metni verildiğinde, model duraklamalar ve dolgu sözcükleri gibi yaygın fonemleri yeniden oluşturabilir. Oluşturulan ses, birisi doğrudan sizinle yakınsıyormuş gibi ses çıkarır. |
Prosody varyasyonları | Nöral metinden konuşmaya HD seslerde gerçekçiliği geliştirmek için her çıkışta küçük çeşitlemeler ortaya konur. İnsan sesleri doğal olarak çeşitleme sergilediğinden bu çeşitlemeler konuşma sesini daha doğal hale getirir. |
Yüksek uygunluk | Nöral metinden konuşma HD seslerine birincil amaç, yüksek aslına uygun ses oluşturmaktır. Sistemimiz tarafından üretilen sentetik konuşma, insan konuşmasını hem kalite hem de doğallık açısından yakından taklit edebilir. |
Sürüm denetimi | Nöral metinden konuşmaya HD seslerle, her biri benzersiz bir temel model boyutuna ve tarifine sahip, aynı sesin farklı sürümlerini yayınlarız. Bu size yeni ses varyasyonlarını deneyimleme veya sesin belirli bir sürümünü kullanmaya devam etme fırsatı sunar. |
Azure AI Konuşma HD seslerinin diğer Azure metinleriyle konuşma seslerinin karşılaştırması
Azure AI Konuşma HD sesleri, diğer Azure metin okuma sesleriyle karşılaştırıldığında nasıldır? Özellikler ve özellikler açısından farkları nedir?
Azure AI Konuşma HD sesleri, Azure OpenAI HD sesleri ve Azure AI Konuşma sesleri arasındaki özelliklerin karşılaştırması aşağıdadır:
Özellik | Azure AI Konuşma HD sesleri | Azure OpenAI HD sesleri | Azure AI Konuşma sesleri (HD değil) |
---|---|---|---|
Bölge | Doğu ABD, Güneydoğu Asya, Batı Avrupa | Orta Kuzey ABD, Orta İsveç | Onlarca bölgede kullanılabilir. Bölge listesine bakın. |
Ses sayısı | 12 | 6 | 500’den fazla |
Çokdilli | Hayır (yalnızca birincil dilde gerçekleştirin) | Yes | Evet (yalnızca çok dilli sesler için geçerlidir) |
SSML desteği | SSML öğelerinin bir alt kümesi için destek. | SSML öğelerinin bir alt kümesi için destek. | Azure AI Konuşmasında tam SSML kümesi desteği. |
Geliştirme seçenekleri | Konuşma SDK'sı, Konuşma CLI'sı, REST API | Konuşma SDK'sı, Konuşma CLI'sı, REST API | Konuşma SDK'sı, Konuşma CLI'sı, REST API |
Dağıtım seçenekleri | Yalnızca bulut | Yalnızca bulut | Bulut, tümleşik, hibrit ve kapsayıcılar. |
Gerçek zamanlı veya toplu sentez | Yalnızca gerçek zamanlı | Gerçek zamanlı ve toplu sentez | Gerçek zamanlı ve toplu sentez |
Gecikme süresi | 300 ms'den az | 500 ms'den büyük | 300 ms'den az |
Sentezlenmiş sesin örnek hızı | 8, 16, 24 ve 48 kHz | 8, 16, 24 ve 48 kHz | 8, 16, 24 ve 48 kHz |
Konuşma çıkışı ses biçimi | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Desteklenen Azure AI Konuşma HD sesleri
Azure AI Konuşma HD ses değerleri biçimindedir voicename:basemodel:version
. İki nokta üst üsteden önceki ad , en-US-Ava
ses kişi adı ve özgün yerel ayarıdır. Temel model sonraki güncelleştirmelerde sürümler tarafından izlenir.
DragonHD
Şu anda Azure AI Konuşma HD seslerinde kullanılabilen tek temel modeldir. Kod değişikliği yapmak zorunda kalmadan sağladığımız temel modelin en son sürümünü kullandığınızdan LatestNeural
emin olmak için sürümünü kullanın.
Örneğin, kişi en-US-Ava
için aşağıdaki HD ses değerlerini belirtebilirsiniz:
en-US-Ava:DragonHDLatestNeural
: Her zaman daha sonra sağladığımız temel modelin en son sürümünü kullanır.
Aşağıdaki tabloda şu anda kullanılabilen Azure AI Konuşma HD sesleri listeleniyor.
Nöral ses kişisi | HD sesler |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Azure AI Konuşma HD seslerini kullanma
HD seslerini, HD olmayan seslerle aynı Konuşma SDK'sı ve REST API'leri ile kullanabilirsiniz.
Azure AI Konuşma HD seslerini kullanırken göz önünde bulundurmanız gereken bazı önemli noktalar şunlardır:
- Ses yerel ayarı: Ses adındaki yerel ayar özgün dilini ve bölgesini gösterir.
- Temel modeller:
- HD sesler, giriş metnini anlayan ve konuşma desenini buna göre tahmin eden bir temel modelle birlikte gelir. Her sesin kullanılabilirliğine göre istenen modeli (DragonHDLatestNeural gibi) belirtebilirsiniz.
- SSML kullanımı: SSML'de bir sese başvurmak için biçimini
voicename:basemodel:version
kullanın. İki nokta üst üsteden önceki ad ,de-DE-Seraphina
ses kişi adı ve özgün yerel ayarıdır. Temel model sonraki güncelleştirmelerde sürümler tarafından izlenir. - Sıcaklık parametresi:
- Sıcaklık değeri, çıkışın rastgeleliğini etkileyen 0 ile 1 arasında bir float değeridir. Çıkışların çeşitlemesi için sıcaklık parametresini de ayarlayabilirsiniz. Daha az rastgelelik daha kararlı sonuçlar verirken, daha fazla rastgelelik çeşitli ancak daha az tutarlılık sunar.
- Düşük sıcaklık, daha az rastgelelik ve daha öngörülebilir çıkışlara neden olur. Daha yüksek sıcaklık rastgeleliği artırarak daha çeşitli çıkışlar sağlar. Varsayılan sıcaklık 1,0 olarak ayarlanır.
SSML'de Azure AI Konuşma HD seslerini kullanma örneği aşağıda verilmiştir:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri
Giriş metniyle Konuşma Sentezi İşaretlemeyi Dili (SSML), metinden konuşmaya çıkışın yapısını, içeriğini ve diğer özelliklerini belirler. Örneğin, SSML kullanarak bir paragraf, tümce, kesme veya duraklama ya da sessizlik tanımlayabilirsiniz. Metni, uygulamanızın daha sonra işlediği yer işareti veya vizeme gibi olay etiketleriyle kaydırabilirsiniz.
Azure AI Konuşma HD sesleri, diğer Azure AI Konuşma seslerinin desteklediği tüm SSML öğelerini veya olaylarını desteklemez. Özellikle, Azure AI Konuşma HD sesleri sözcük sınırı olaylarını desteklemez.
Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri hakkında ayrıntılı bilgi için aşağıdaki tabloya bakın. SSML öğelerini kullanma yönergeleri için Konuşma Sentezi Biçimlendirme Dili (SSML) belgelerine bakın.
SSML öğesi | Açıklama | Azure AI Konuşma HD seslerinde desteklenir |
---|---|---|
<voice> |
Sesi ve isteğe bağlı efektleri (eq_car ve eq_telecomhp8k ) belirtir. |
Yes |
<mstts:express-as> |
Konuşma stillerini ve rollerini belirtir. | Hayır |
<mstts:ttsembedding> |
speakerProfileId Kişisel ses özelliğini belirtir. |
Hayır |
<lang xml:lang> |
Konuşma dilini belirtir. | Yes |
<prosody> |
Perdeyi, konturu, aralığı, hızı ve hacmi ayarlar. | Hayır |
<emphasis> |
Metin için sözcük düzeyi stres ekler veya kaldırır. | Hayır |
<audio> |
Önceden kaydedilmiş sesi bir SSML belgesine ekler. | Hayır |
<mstts:audioduration> |
Çıkış sesinin süresini belirtir. | Hayır |
<mstts:backgroundaudio> |
SSML belgelerinize arka plan sesi ekler veya ses dosyasını metin okuma ile karıştırır. | Hayır |
<phoneme> |
SSML belgelerinde fonetik telaffuzu belirtir. | Hayır |
<lexicon> |
SSML'de birden çok varlığın nasıl okunduğu tanımlar. | Evet (yalnızca diğer adı destekler) |
<say-as> |
Öğenin metninin sayı veya tarih gibi içerik türünü gösterir. | Yes |
<sub> |
Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir. | Yes |
<math> |
MathML'yi giriş metni olarak kullanarak çıkış sesindeki matematiksel gösterimi düzgün bir şekilde telaffuz eder. | Hayır |
<bookmark> |
Ses akışındaki her işaretçinin uzaklığını alır. | Hayır |
<break> |
Sözcükler arasında kesmelerin veya duraklamaların varsayılan davranışını geçersiz kılar. | Hayır |
<mstts:silence> |
Ekler metinden önce veya sonra ya da bitişik iki cümle arasında duraklatılır. | Hayır |
<mstts:viseme> |
Bir kişi konuşurken yüzün ve ağzın konumunu tanımlar. | Hayır |
<p> |
SSML belgelerindeki paragrafları belirtir. | Yes |
<s> |
SSML belgelerindeki tümceleri belirtir. | Yes |
Not
Bu kılavuzun önceki bölümlerinden biri Azure AI Konuşma HD seslerini Azure OpenAI HD sesleriyle karşılaştırsa da, Azure AI Konuşma tarafından desteklenen SSML öğeleri Azure OpenAI seslerine uygulanamaz.