Metin okuma nedir?

Makale
10/31/2024

Bu genel bakışta, Azure AI hizmetlerinin bir parçası olan Konuşma tanıma hizmetinin metin okuma özelliğinin avantajları ve özellikleri hakkında bilgi ediniyorsunuz.

Metin okuma, uygulamalarınızın, araçlarınızın veya cihazlarınızın metni sentezlenmiş konuşma gibi insana dönüştürmesini sağlar. Metin okuma özelliği, konuşma sentezi olarak da bilinir. Kutudan çıkarak insan gibi önceden oluşturulmuş sinir seslerini kullanın veya ürününüz veya markanıza özel bir sinir sesi oluşturun. Desteklenen seslerin, dillerin ve yerel ayarların tam listesi için bkz . Konuşma hizmeti için dil ve ses desteği.

Temel özellikler

Metin okuma aşağıdaki özellikleri içerir:

Özellik	Özet	Tanıtım
Önceden oluşturulmuş sinir sesi (fiyatlandırma sayfasında Nöral olarak adlandırılır)	Çok doğal, ilk çıkan sesler. Bir Azure aboneliği ve Konuşma kaynağı oluşturun, ardından Konuşma SDK'sını kullanın veya Speech Studio portalını ziyaret edin ve başlamak için önceden oluşturulmuş sinir sesleri'ni seçin. Fiyatlandırma ayrıntılarını denetleyin.	Ses Galerisi'ni kontrol edin ve iş gereksinimleriniz için doğru sesi belirleyin.
Özel sinir sesi (fiyatlandırma sayfasında Özel Sinir olarak adlandırılır)	Sorumlu kullanım için sınırlı erişime sahip, doğal bir marka sesi oluşturmak için kullanımı kolay self servis. Azure aboneliği ve Konuşma kaynağı (S0 katmanıyla) oluşturun ve özel ses özelliğini kullanmak için uygulayın . Size erişim verildikten sonra, başlamak için Speech Studio portalını ziyaret edin ve Özel ses'i seçin. Fiyatlandırma ayrıntılarını denetleyin.	Ses örneklerini kontrol edin.

Nöral metin okuma özellikleri hakkında daha fazla bilgi

Metin okuma, bilgisayarların seslerini insanların kayıtlarından neredeyse ayırt edilemez hale getirmek için derin sinir ağları kullanır. Sözcüklerin net bir şekilde ifadesiyle, sinir metninden konuşmaya geçmek, kullanıcılar yapay zeka sistemleriyle etkileşime geçtiğinde dinleme yorgunluğunu önemli ölçüde azaltır.

Konuşulan dilde stres ve intonasyon desenleri prosody olarak adlandırılır. Geleneksel metin okuma sistemleri, bağımsız modeller tarafından yönetilen ayrı dil analizi ve akustik tahmin adımlarına ayrılır. Bu da boğuk, baş döndürücü ses sentezi ile sonuçlanabilir.

Konuşma tanıma hizmetindeki nöral metinden konuşmaya özellikleri ve geleneksel metin ile konuşma sistemlerinin sınırlarını nasıl aştıkları hakkında daha fazla bilgi aşağıdadır:

Gerçek zamanlı konuşma sentezi: Önceden oluşturulmuş sinir seslerini veya özel sinir seslerini kullanarak metni konuşmaya dönüştürmek için Konuşma SDK'sını veya REST API'sini kullanın.
Uzun sesin zaman uyumsuz sentezi: 10 dakikadan uzun bir süre (örneğin, sesli kitaplar veya dersler) metni konuşma dosyalarıyla zaman uyumsuz olarak sentezlemek için toplu sentez API'sini kullanın. Konuşma SDK'sı veya Konuşmayı metne dönüştürme REST API'si aracılığıyla gerçekleştirilen sentezden farklı olarak yanıtlar gerçek zamanlı olarak döndürülemez. İsteklerin zaman uyumsuz olarak gönderilmesi, yanıtların yoklenmesi ve hizmet kullanıma sunulduğunda sentezlenmiş sesin indirilmiş olması beklenir.
Önceden oluşturulmuş sinir sesleri: Azure AI Speech, konuşma dilindeki stres ve tonlamayla ilgili geleneksel konuşma sentezi sınırlarını aşmak için derin sinir ağlarını kullanır. Prosody tahmin ve ses sentezi aynı anda gerçekleşir ve bu da daha akıcı ve doğal ses çıkışlarına neden olur. Önceden oluşturulmuş her nöral ses modeli 24 kHz ve yüksek aslına uygun 48 kHz'de mevcuttur. Sinir seslerini kullanarak:
- Sohbet botları ve sesli yardımcılarla etkileşimleri daha doğal ve ilgi çekici hale getirin.
- E-kitaplar gibi dijital metinleri sesli kitaplara dönüştürün.
- Araç içi navigasyon sistemlerini geliştirin.
Önceden oluşturulmuş Azure AI Konuşma sinir seslerinin tam listesi için bkz . Konuşma hizmeti için dil ve ses desteği.
SSML ile metin okuma çıkışını geliştirme: Konuşma Sentezi biçimlendirme dili (SSML), metinden konuşmaya çıkışları özelleştirmek için kullanılan XML tabanlı bir işaretleme dilidir. SSML ile perdeyi ayarlayabilir, duraklamalar ekleyebilir, söylenişi iyileştirebilir, konuşma hızını değiştirebilir, ses düzeyini ayarlayabilir ve birden çok sesi tek bir belgeyle ilişkilendirebilirsiniz.

Kendi sözcük sözcüklerinizi tanımlamak veya farklı konuşma stillerine geçmek için SSML kullanabilirsiniz. Çok dilli seslerle, SSML aracılığıyla konuşma dillerini de ayarlayabilirsiniz. Senaryonuzun ses çıkışını geliştirmek için bkz . Konuşma Sentezi Biçimlendirme Dili ile sentezi geliştirme ve Ses İçeriği Oluşturma aracıyla Konuşma sentezi.
Visemes: Visemeler , belirli bir fonem üretmede dudakların, çenenin ve dilin konumu da dahil olmak üzere gözlemlenen konuşmada önemli pozlardır. Visemes'in seslerle ve seslerle güçlü bir bağıntısı vardır.

Konuşma SDK'sında viseme olayları kullanarak yüz animasyonu verileri oluşturabilirsiniz. Bu veriler dudak okuma iletişimi, eğitim, eğlence ve müşteri hizmetlerindeki yüzlere animasyon eklemek için kullanılabilir. Viseme şu anda yalnızca (ABD İngilizcesi en-US ) sinir sesleri için desteklenmektedir.

Not

Azure AI Konuşma sinirsel (HD olmayan) seslere ek olarak, Azure AI Konuşma yüksek tanımlı (HD) sesleri ve Azure OpenAI sinir (HD ve HD olmayan) sesleri de kullanabilirsiniz. HD sesleri, daha çok yönlü senaryolar için daha yüksek kalite sağlar.

Bazı sesler tüm Konuşma Sentezi Biçimlendirme Dili (SSML) etiketlerini desteklemez. Buna nöral metinden konuşma HD seslerine, kişisel seslere ve ekli seslere dahildir.

Azure AI Konuşma yüksek tanımlı (HD) sesler için buradan SSML desteğine bakın.
Kişisel ses için SSML desteğini burada bulabilirsiniz.
Katıştırılmış sesler için buradan SSML desteğine bakın.

Kullanmaya başlayın

Metin okuma ile çalışmaya başlamak için hızlı başlangıç bölümüne bakın. Metin okuma, Konuşma SDK'sı, REST API ve Konuşma CLI'sı aracılığıyla kullanılabilir.

İpucu

Kod içermeyen bir yaklaşımla metni konuşmaya dönüştürmek için Speech Studio'da Ses İçeriği Oluşturma aracını deneyin.

Örnek kod

Metin okuma için örnek kod GitHub'da kullanılabilir. Bu örnekler, en popüler programlama dillerinde metinden konuşmaya dönüştürmeyi kapsar:

Özel sinir sesi

Önceden oluşturulmuş sinir seslerine ek olarak, ürününüz veya markanız için benzersiz özel sinir sesleri oluşturabilirsiniz. Başlamak için gereken tek şey, birkaç ses dosyası ve ilişkili transkripsiyonlardır. Daha fazla bilgi için bkz . Özel sinir sesini kullanmaya başlama.

Fiyatlandırma notu

Faturalanabilir karakterler

Metin okuma özelliğini kullandığınızda, noktalama işaretleri de dahil olmak üzere konuşmaya dönüştürülen her karakter için faturalandırılırsınız. SSML belgesinin kendisi faturalanabilir olmasa da, metnin konuşma sesi ve perde gibi konuşmaya nasıl dönüştürüldüğünü ayarlamak için kullanılan isteğe bağlı öğeler faturalanabilir karakterler olarak sayılır. Faturalanabilenlerin listesi aşağıdadır:

İsteğin SSML gövdesindeki metin okuma özelliğine geçirilen metin
ve <voice> etiketleri dışında<speak>, istek gövdesinin metin alanındaki SSML biçimindeki tüm işaretlemeler
Harfler, noktalama işaretleri, boşluklar, sekmeler, işaretlemeler ve tüm boşluk karakterleri
Unicode'da tanımlanan her kod noktası

Ayrıntılı bilgi için bkz . Konuşma hizmeti fiyatlandırması.

Önemli

Her Çince karakter, Japonca kullanılan kanji, Korece kullanılan hanja veya diğer dillerde kullanılan hanzi de dahil olmak üzere faturalama için iki karakter olarak sayılır.

Özel sinir sesi için model eğitimi ve barındırma süresi

Özel nöral ses eğitimi ve barındırma hem saat hem de saniye başına faturalandırılır. Faturalama birimi fiyatı için bkz . Konuşma hizmeti fiyatlandırması.

Özel nöral ses (CNV) eğitim süresi 'işlem saati' (makinenin çalışma süresini ölçmek için bir birim) ile ölçülür. Genellikle bir ses modelini eğitirken iki bilgi işlem görevi paralel olarak çalışır. Bu nedenle, hesaplanan işlem saatleri gerçek eğitim süresinden daha uzun olur. Bir CNV Lite sesini eğitmek ortalama olarak bir işlem saatinden daha az sürer; CNV Pro için ise tek stilli bir sesi eğitmek genellikle 20-40 işlem saati ve çok stilli bir sesi eğitmek için yaklaşık 90 işlem saati sürer. CNV eğitim süresi, 96 işlem saati üst sınırıyla faturalandırılır. Bu nedenle bir ses modelinin 98 işlem saatinde eğitilmesi durumunda yalnızca 96 işlem saatiyle ücretlendirilirsiniz.

Özel nöral ses (CNV) uç nokta barındırma gerçek saat (saat) ile ölçülür. Her uç nokta için barındırma süresi (saat), önceki 24 saat için her gün 00:00 UTC olarak hesaplanır. Örneğin, uç nokta birinci günde 24 saat etkinse, ikinci gün saat 00:00 UTC'de 24 saat için faturalandırılır. Uç nokta gün boyunca yeni oluşturulduysa veya askıya alındıysa, ikinci gün 00:00 UTC'ye kadar birikmiş çalışma süresi için faturalandırılır. Uç nokta şu anda barındırılmıyorsa faturalandırılamaz. Her gün saat 00:00 UTC'de yapılan günlük hesaplamaya ek olarak, bir uç nokta silindiğinde veya askıya alındığında faturalama da hemen tetikleniyor. Örneğin, 1 Aralık'ta 08:00 UTC'de oluşturulan bir uç nokta için barındırma saati 2 Aralık'ta 00:00 UTC'de 16 saat ve 3 Aralık'ta 00:00 UTC'de 24 saat olarak hesaplanır. Kullanıcı 3 Aralık'ta saat 16:30 UTC'de uç noktayı barındırmayı askıya alırsa, 3 Aralık'ta saat 00:00 ile 16:30 UTC arası süre (16,5 saat) faturalama için hesaplanır.

Kişisel ses

Kişisel ses özelliğini kullandığınızda hem profil depolama hem de sentez için faturalandırılırsınız.

Profil depolama: Kişisel ses profili oluşturulduktan sonra sistemden kaldırılana kadar faturalandırılır. Faturalama birimi her gün ses başınadır. Ses depolama alanı 24 saatten kısa bir süre boyunca sürerse bir tam gün olarak faturalandırılır.
Sentez: Karakter başına faturalandırılır. Faturalanabilir karakterlerle ilgili ayrıntılar için yukarıdaki faturalanabilir karakterlere bakın.

Metin okuma avatarı

Metin okuma avatarı özelliği kullanıldığında, video çıkışının uzunluğuna bağlı olarak ücret uygulanır ve saniye başına faturalandırılır. Ancak gerçek zamanlı avatar için ücretler, avatarın etkin olduğu zamana göre değişir; konuşma veya sessiz kalma durumundan bağımsız olarak saniye başına faturalandırılır. Gerçek zamanlı avatar kullanımı için maliyetleri iyileştirmek için örnek kodda sağlanan ipuçlarına bakın ("Boşta Kalma için Yerel Videoyu Kullan" ifadesini arayın). Avatar barındırma, uç nokta başına saniye başına faturalandırılır. Maliyet tasarrufu yapmak için uç noktanızı askıya alabilirsiniz. Uç noktanızı askıya almak istiyorsanız, doğrudan silebilirsiniz. Yeniden kullanmak için uç noktayı yeniden dağıtmanız yeterlidir.

Azure metin okuma ölçümlerini izleme

Metin okuma hizmetleriyle ilişkili temel ölçümlerin izlenmesi, kaynak kullanımını yönetmek ve maliyetleri denetlemek için çok önemlidir. Bu bölüm, Azure portalında kullanım bilgilerini bulma konusunda size yol gösterir ve önemli ölçümlerin ayrıntılı tanımlarını sağlar. Azure izleyici ölçümleri hakkında daha fazla bilgi için bkz. Azure İzleyici Ölçümlerine genel bakış.

Azure portalında kullanım bilgilerini bulma

Azure kaynaklarınızı etkili bir şekilde yönetmek için kullanım bilgilerine düzenli olarak erişmek ve bunları gözden geçirmek çok önemlidir. Kullanım bilgilerini şu şekilde bulabilirsiniz:

Azure portalına gidin ve Azure hesabınızla oturum açın.
Kaynaklar'a gidin ve izlemek istediğiniz kaynağı seçin.
Sol taraftaki menüden İzleme'nin altında Ölçümler'i seçin.
Ölçüm görünümlerini özelleştirin.

İzleme gereksinimlerinize uygun özel görünümler oluşturmak için verileri kaynak türüne, ölçüm türüne, zaman aralığına ve diğer parametrelere göre filtreleyebilirsiniz. Ayrıca sık kullanılan ölçümlere kolay erişim için Panoya kaydet'i seçerek ölçüm görünümünü panolara kaydedebilirsiniz.
Uyarıları ayarlayın.

Kullanımı daha etkili bir şekilde yönetmek için sol taraftaki menüden İzleme'nin altındaki Uyarılar sekmesine giderek uyarıları ayarlayın. Uyarılar, kullanımınız belirli eşiklere ulaştığında sizi bilgilendirerek beklenmeyen maliyetleri önlemeye yardımcı olabilir.

Ölçümlerin tanımı

Aşağıda, Azure metninden konuşma hizmetlerine yönelik temel ölçümleri özetleyen bir tablo yer almaktadır.

Ölçüm adı	Açıklama
Birleştirilmiş Karakterler	Önceden oluşturulmuş sinir sesi ve özel sinir sesi dahil olmak üzere konuşmaya dönüştürülen karakter sayısını izler. Faturalanabilir karakterlerle ilgili ayrıntılar için bkz . Faturalanabilir karakterler.
Video Saniye Sentezi	Toplu avatar sentezi, gerçek zamanlı avatar sentezi ve özel avatar sentezi dahil olmak üzere sentezlenen videonun toplam süresini ölçer.
Avatar Modeli Barındırma Saniyeleri	Özel avatar modelinizin barındırıldığını saniyeler içinde toplam süreyi izler.
Ses Modeli Barındırma Saatleri	Özel nöral ses modelinizin barındırıldığını saat cinsinden toplam süreyi izler.
Ses Modeli Eğitim Dakikaları	Özel nöral ses modelinizi eğiterek toplam süreyi dakika cinsinden ölçer.

Başvuru belgeleri

Sorumlu AI

Yapay zeka sistemi yalnızca teknolojiyi değil, onu kullanan kişileri, etkilenen kişileri ve dağıtıldığı ortamı da içerir. Sistemlerinizde sorumlu yapay zeka kullanımı ve dağıtımı hakkında bilgi edinmek için saydamlık notlarını okuyun.

Aracılığıyla paylaş