Yüksek tanımlı sesler nedir? (Önizleme)

Makale
10/24/2024

Not

Bu özellik şu anda genel önizlemededir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Azure AI Konuşma, nöral metnin yüksek tanımlı (HD) seslere girişiyle metinden konuşmaya teknolojisi alanında ilerlemeye devam ediyor. HD sesleri içeriği anlayabilir, giriş metnindeki duyguları otomatik olarak algılayabilir ve konuşma tonunu yaklaşımla eşleşecek şekilde gerçek zamanlı olarak ayarlayabilir. HD sesler, nöral (ve HD olmayan) muadillerinden tutarlı bir ses kişisi tutar ve gelişmiş özelliklerle daha da fazla değer sunar.

Nöral metnin HD seslerini konuşmaya yönelik temel özellikleri

Azure AI Konuşma HD seslerinin temel özellikleri şunlardır:

Önemli özellikler	Açıklama
İnsan benzeri konuşma oluşturma	Nöral metinden konuşmaya HD sesler yüksek oranda doğal ve insan benzeri konuşmalar oluşturabilir. Model, milyonlarca saatlik çok dilli veriler üzerinde eğitilir ve el ile ayarlamalar yapmadan giriş metnini doğru bir şekilde yorumlamasına ve uygun duygu, tempo ve ritimle konuşma oluşturmasına olanak tanır.
Konuşma	Nöral metinden konuşmaya HD ses, kendiliğinden duraklamalar ve vurgu dahil olmak üzere doğal konuşma desenlerini çoğaltabilir. Konuşma metni verildiğinde, model duraklamalar ve dolgu sözcükleri gibi yaygın fonemleri yeniden oluşturabilir. Oluşturulan ses, birisi doğrudan sizinle yakınsıyormuş gibi ses çıkarır.
Prosody varyasyonları	Nöral metinden konuşmaya HD seslerde gerçekçiliği geliştirmek için her çıkışta küçük çeşitlemeler ortaya konur. İnsan sesleri doğal olarak çeşitleme sergilediğinden bu çeşitlemeler konuşma sesini daha doğal hale getirir.
Yüksek uygunluk	Nöral metinden konuşma HD seslerine birincil amaç, yüksek aslına uygun ses oluşturmaktır. Sistemimiz tarafından üretilen sentetik konuşma, insan konuşmasını hem kalite hem de doğallık açısından yakından taklit edebilir.
Sürüm denetimi	Nöral metinden konuşmaya HD seslerle, her biri benzersiz bir temel model boyutuna ve tarifine sahip, aynı sesin farklı sürümlerini yayınlarız. Bu size yeni ses varyasyonlarını deneyimleme veya sesin belirli bir sürümünü kullanmaya devam etme fırsatı sunar.

Azure AI Konuşma HD seslerinin diğer Azure metinleriyle konuşma seslerinin karşılaştırması

Azure AI Konuşma HD sesleri, diğer Azure metin okuma sesleriyle karşılaştırıldığında nasıldır? Özellikler ve özellikler açısından farkları nedir?

Azure AI Konuşma HD sesleri, Azure OpenAI HD sesleri ve Azure AI Konuşma sesleri arasındaki özelliklerin karşılaştırması aşağıdadır:

Özellik	Azure AI Konuşma HD sesleri	Azure OpenAI HD sesleri	Azure AI Konuşma sesleri (HD değil)
Bölge	Doğu ABD, Güneydoğu Asya, Batı Avrupa	Orta Kuzey ABD, Orta İsveç	Onlarca bölgede kullanılabilir. Bölge listesine bakın.
Ses sayısı	12	6	500’den fazla
Çokdilli	Hayır (yalnızca birincil dilde gerçekleştirin)	Yes	Evet (yalnızca çok dilli sesler için geçerlidir)
SSML desteği	SSML öğelerinin bir alt kümesi için destek.	SSML öğelerinin bir alt kümesi için destek.	Azure AI Konuşmasında tam SSML kümesi desteği.
Geliştirme seçenekleri	Konuşma SDK'sı, Konuşma CLI'sı, REST API	Konuşma SDK'sı, Konuşma CLI'sı, REST API	Konuşma SDK'sı, Konuşma CLI'sı, REST API
Dağıtım seçenekleri	Yalnızca bulut	Yalnızca bulut	Bulut, tümleşik, hibrit ve kapsayıcılar.
Gerçek zamanlı veya toplu sentez	Yalnızca gerçek zamanlı	Gerçek zamanlı ve toplu sentez	Gerçek zamanlı ve toplu sentez
Gecikme süresi	300 ms'den az	500 ms'den büyük	300 ms'den az
Sentezlenmiş sesin örnek hızı	8, 16, 24 ve 48 kHz	8, 16, 24 ve 48 kHz	8, 16, 24 ve 48 kHz
Konuşma çıkışı ses biçimi	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Desteklenen Azure AI Konuşma HD sesleri

Azure AI Konuşma HD ses değerleri biçimindedir voicename:basemodel:version. İki nokta üst üsteden önceki ad , en-US-Avases kişi adı ve özgün yerel ayarıdır. Temel model sonraki güncelleştirmelerde sürümler tarafından izlenir.

DragonHD Şu anda Azure AI Konuşma HD seslerinde kullanılabilen tek temel modeldir. Kod değişikliği yapmak zorunda kalmadan sağladığımız temel modelin en son sürümünü kullandığınızdan LatestNeural emin olmak için sürümünü kullanın.

Örneğin, kişi en-US-Ava için aşağıdaki HD ses değerlerini belirtebilirsiniz:

en-US-Ava:DragonHDLatestNeural: Her zaman daha sonra sağladığımız temel modelin en son sürümünü kullanır.

Aşağıdaki tabloda şu anda kullanılabilen Azure AI Konuşma HD sesleri listeleniyor.

Nöral ses kişisi	HD sesler
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Azure AI Konuşma HD seslerini kullanma

HD seslerini, HD olmayan seslerle aynı Konuşma SDK'sı ve REST API'leri ile kullanabilirsiniz.

Azure AI Konuşma HD seslerini kullanırken göz önünde bulundurmanız gereken bazı önemli noktalar şunlardır:

Ses yerel ayarı: Ses adındaki yerel ayar özgün dilini ve bölgesini gösterir.
Temel modeller:
- HD sesler, giriş metnini anlayan ve konuşma desenini buna göre tahmin eden bir temel modelle birlikte gelir. Her sesin kullanılabilirliğine göre istenen modeli (DragonHDLatestNeural gibi) belirtebilirsiniz.
SSML kullanımı: SSML'de bir sese başvurmak için biçimini voicename:basemodel:versionkullanın. İki nokta üst üsteden önceki ad , de-DE-Seraphinases kişi adı ve özgün yerel ayarıdır. Temel model sonraki güncelleştirmelerde sürümler tarafından izlenir.
Sıcaklık parametresi:
- Sıcaklık değeri, çıkışın rastgeleliğini etkileyen 0 ile 1 arasında bir float değeridir. Çıkışların çeşitlemesi için sıcaklık parametresini de ayarlayabilirsiniz. Daha az rastgelelik daha kararlı sonuçlar verirken, daha fazla rastgelelik çeşitli ancak daha az tutarlılık sunar.
- Düşük sıcaklık, daha az rastgelelik ve daha öngörülebilir çıkışlara neden olur. Daha yüksek sıcaklık rastgeleliği artırarak daha çeşitli çıkışlar sağlar. Varsayılan sıcaklık 1,0 olarak ayarlanır.

SSML'de Azure AI Konuşma HD seslerini kullanma örneği aşağıda verilmiştir:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri

Giriş metniyle Konuşma Sentezi İşaretlemeyi Dili (SSML), metinden konuşmaya çıkışın yapısını, içeriğini ve diğer özelliklerini belirler. Örneğin, SSML kullanarak bir paragraf, tümce, kesme veya duraklama ya da sessizlik tanımlayabilirsiniz. Metni, uygulamanızın daha sonra işlediği yer işareti veya vizeme gibi olay etiketleriyle kaydırabilirsiniz.

Azure AI Konuşma HD sesleri, diğer Azure AI Konuşma seslerinin desteklediği tüm SSML öğelerini veya olaylarını desteklemez. Özellikle, Azure AI Konuşma HD sesleri sözcük sınırı olaylarını desteklemez.

Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri hakkında ayrıntılı bilgi için aşağıdaki tabloya bakın. SSML öğelerini kullanma yönergeleri için Konuşma Sentezi Biçimlendirme Dili (SSML) belgelerine bakın.

SSML öğesi	Açıklama	Azure AI Konuşma HD seslerinde desteklenir
`<voice>`	Sesi ve isteğe bağlı efektleri (`eq_car` ve `eq_telecomhp8k`) belirtir.	Yes
`<mstts:express-as>`	Konuşma stillerini ve rollerini belirtir.	Hayır
`<mstts:ttsembedding>`	`speakerProfileId` Kişisel ses özelliğini belirtir.	Hayır
`<lang xml:lang>`	Konuşma dilini belirtir.	Yes
`<prosody>`	Perdeyi, konturu, aralığı, hızı ve hacmi ayarlar.	Hayır
`<emphasis>`	Metin için sözcük düzeyi stres ekler veya kaldırır.	Hayır
`<audio>`	Önceden kaydedilmiş sesi bir SSML belgesine ekler.	Hayır
`<mstts:audioduration>`	Çıkış sesinin süresini belirtir.	Hayır
`<mstts:backgroundaudio>`	SSML belgelerinize arka plan sesi ekler veya ses dosyasını metin okuma ile karıştırır.	Hayır
`<phoneme>`	SSML belgelerinde fonetik telaffuzu belirtir.	Hayır
`<lexicon>`	SSML'de birden çok varlığın nasıl okunduğu tanımlar.	Evet (yalnızca diğer adı destekler)
`<say-as>`	Öğenin metninin sayı veya tarih gibi içerik türünü gösterir.	Yes
`<sub>`	Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir.	Yes
`<math>`	MathML'yi giriş metni olarak kullanarak çıkış sesindeki matematiksel gösterimi düzgün bir şekilde telaffuz eder.	Hayır
`<bookmark>`	Ses akışındaki her işaretçinin uzaklığını alır.	Hayır
`<break>`	Sözcükler arasında kesmelerin veya duraklamaların varsayılan davranışını geçersiz kılar.	Hayır
`<mstts:silence>`	Ekler metinden önce veya sonra ya da bitişik iki cümle arasında duraklatılır.	Hayır
`<mstts:viseme>`	Bir kişi konuşurken yüzün ve ağzın konumunu tanımlar.	Hayır
`<p>`	SSML belgelerindeki paragrafları belirtir.	Yes
`<s>`	SSML belgelerindeki tümceleri belirtir.	Yes

Not

Bu kılavuzun önceki bölümlerinden biri Azure AI Konuşma HD seslerini Azure OpenAI HD sesleriyle karşılaştırsa da, Azure AI Konuşma tarafından desteklenen SSML öğeleri Azure OpenAI seslerine uygulanamaz.

Aracılığıyla paylaş

Yüksek tanımlı sesler nedir? (Önizleme)

Nöral metnin HD seslerini konuşmaya yönelik temel özellikleri

Azure AI Konuşma HD seslerinin diğer Azure metinleriyle konuşma seslerinin karşılaştırması

Desteklenen Azure AI Konuşma HD sesleri

Azure AI Konuşma HD seslerini kullanma

Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Yüksek tanımlı sesler nedir? (Önizleme)

Nöral metnin HD seslerini konuşmaya yönelik temel özellikleri

Azure AI Konuşma HD seslerinin diğer Azure metinleriyle konuşma seslerinin karşılaştırması

Desteklenen Azure AI Konuşma HD sesleri

Azure AI Konuşma HD seslerini kullanma

Azure AI Konuşma HD sesleri için desteklenen ve desteklenmeyen SSML öğeleri

İlgili içerik

Geri Bildirim

Ek kaynaklar