OpenAI metinden konuşma seslerine nelerdir?

Azure AI Konuşma sesleri gibi OpenAI metni de konuşma seslerine yazılı metni doğal sesli sese dönüştürmek için yüksek kaliteli konuşma sentezi sağlar. Bu, çevreleyici ve etkileşimli kullanıcı deneyimleri için çok çeşitli olanakların kilidini açar.

OpenAI metinden konuşma seslerine iki model çeşidi aracılığıyla kullanılabilir: Neural ve NeuralHD.

  • Neural: En düşük gecikme süresine sahip ancak değerinden NeuralHDdaha düşük kaliteye sahip gerçek zamanlı kullanım örnekleri için iyileştirilmiştir.
  • NeuralHD: Kalite için iyileştirilmiştir.

Azure AI hizmetlerinde konuşma seslerine metin ekleme

Şunu sorabilirsiniz: Konuşma sesi için OpenAI metni kullanmak istersem, bunu Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?

Her ses modeli, özel gereksinimlerinize en uygun olanı seçmenize olanak sağlayan farklı özellikler ve özellikler sunar. Azure AI hizmetlerinde kullanılabilir metin okuma sesleri arasındaki seçenekleri ve farkları anlamak istiyorsunuz.

Azure AI hizmetlerinde aşağıdaki metinden konuşma seslerine seçim yapabilirsiniz:

  • Azure OpenAI Hizmeti'nde openAI metniyle konuşma seslerine geçiş. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
  • Azure AI Konuşma'da konuşma seslerine openAI metni. Şu bölgelerde kullanılabilir: Orta Kuzey ABD ve İsveç Orta.
  • Azure AI Konuşma tanıma hizmeti metni ile konuşma seslerine. Onlarca bölgede kullanılabilir. Bölge listesine bakın.

Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla konuşma seslerine OpenAI metni mi?

Konuşma seslerinde OpenAI metni kullanmak istiyorsanız, bunları Azure OpenAI veya Azure AI Konuşma aracılığıyla kullanmayı seçebilirsiniz. Ses İçeriği Oluşturma özelliğini kullanarak Azure OpenAI ses örneklerini dinlemek veya konuşmayı kendi metninizle sentezlemek için Ses Galerisi'ni ziyaret edebilirsiniz. Ses çıkışı her iki durumda da aynıdır ve iki hizmet arasında yalnızca birkaç özellik farkı vardır. Ayrıntılar için aşağıdaki tabloya bakın.

Aşağıda, OpenAI metni ile Azure OpenAI Hizmeti'ndeki konuşma sesleri arasındaki özelliklerin ve Azure AI Konuşma'daki OpenAI metninin konuşma sesleriyle karşılaştırmasını bulabilirsiniz.

Özellik Azure OpenAI Hizmeti (OpenAI sesleri) Azure AI Konuşma (OpenAI sesleri) Azure AI Konuşma sesleri
Bölge Orta Kuzey ABD, Orta İsveç Orta Kuzey ABD, Orta İsveç Onlarca bölgede kullanılabilir. Bölge listesine bakın.
Ses çeşitliliği 6 12 500’den fazla
Çok dilli ses numarası 6 12 49
Maksimum çok dilli dil kapsamı 57 57 77
Konuşma Sentezi biçimlendirme dili (SSML) desteği Desteklenmez SSML öğelerinin bir alt kümesi için destek. Azure AI Konuşmasında tam SSML kümesi desteği.
Geliştirme seçenekleri REST API Konuşma SDK'sı, Konuşma CLI'sı, REST API Konuşma SDK'sı, Konuşma CLI'sı, REST API
Dağıtım seçeneği Yalnızca bulut Yalnızca bulut Bulut, tümleşik, hibrit ve kapsayıcılar.
Gerçek zamanlı veya toplu sentez Gerçek zamanlı Gerçek zamanlı ve toplu sentez Gerçek zamanlı ve toplu sentez
Gecikme süresi 500 ms'den büyük 500 ms'den büyük 300 ms'den az
Sentezlenmiş sesin örnek hızı 24 kHz 8, 16, 24 ve 48 kHz 8, 16, 24 ve 48 kHz
Konuşma çıkışı ses biçimi opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Azure AI Konuşma'da OpenAI sesleriyle kullanılamayan ek özellikler ve özellikler vardır. Örneğin:

  • Azure AI Konuşma'da OpenAI metninden konuşma seslerine yalnızca SSML öğelerinin bir alt kümesini destekler. Azure AI Konuşma sesleri, tüm SSML öğelerini destekler.
  • Azure AI Konuşma, sözcük sınırı olaylarını destekler. OpenAI sesleri sözcük sınırı olaylarını desteklemez.

Azure AI Konuşmasında OpenAI metni ile konuşma seslerine desteklenen SSML öğeleri

Giriş metniyle Konuşma Sentezi İşaretlemeyi Dili (SSML), metinden konuşmaya çıkışın yapısını, içeriğini ve diğer özelliklerini belirler. Örneğin, SSML kullanarak bir paragraf, tümce, kesme veya duraklama ya da sessizlik tanımlayabilirsiniz. Metni yer işareti veya viseme gibi daha sonra uygulamanız tarafından işlenebilen olay etiketleriyle kaydırabilirsiniz.

Aşağıdaki tabloda, OpenAI metni tarafından desteklenen Konuşma Sentezi İşaretlemeyi Dili (SSML) öğeleri Azure AI konuşmasında konuşma seslerine özetlenmiştir. OpenAI sesleri için yalnızca aşağıdaki SSML etiketleri alt kümesi desteklenir. Daha fazla bilgi için bkz . SSML belge yapısı ve olayları .

SSML öğe adı Açıklama
<speak> Konuşulacak içeriğin tamamını içine alır. SSML belgesinin kök öğesidir.
<voice> Metinden konuşmaya çıkışı için kullanılan sesi belirtir.
<sub> Diğer ad özniteliğinin metin değerinin öğenin kapalı metni yerine telaffuz edilmesi gerektiğini gösterir.
<say-as> Öğenin metninin sayı veya tarih gibi içerik türünü gösterir.

interpret-as dışında bu öğe interpret-as="name"için tüm özellik değerleri desteklenir. Örneğin desteklenir <say-as interpret-as="date" format="dmy">10-12-2016</say-as> , ancak <say-as interpret-as="name">ED</say-as> desteklenmez. Daha fazla bilgi için bkz . SSML ile söyleniş.
<s> Cümleleri belirtir.
<lang> Sinir sesinin konuşmasını istediğiniz dil için varsayılan yerel ayarı gösterir.
<break> Sözcükler arasındaki kesme veya duraklamaların varsayılan davranışını geçersiz kılmak için kullanın.