Fısıltı modeli nedir?
Whisper modeli, OpenAI'den ses dosyalarının dökümünü almak için kullanabileceğiniz bir metin modelidir. Model, büyük bir İngilizce ses ve metin veri kümesi üzerinde eğitilir. Model, İngilizce konuşma içeren ses dosyalarının çevirisi için iyileştirilmiştir. Model, diğer dillerde konuşma içeren ses dosyalarının dökümünü almak için de kullanılabilir. Modelin çıktısı İngilizce metindir.
Fısıltı modelleri Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla kullanılabilir. Özellikler bu teklifler için farklılık gösterir. Azure AI Konuşma (toplu transkripsiyon)'da Whisper, konuşmayı metne dönüştürme için kullanabileceğiniz birkaç modelden yalnızca biridir.
Şu soruları sorabilirsiniz:
Fısıltı Modeli senaryom için iyi bir seçim mi yoksa Azure AI Konuşma modeli daha mı iyi? İki model türü arasındaki API karşılaştırmaları nelerdir?
Fısıltı Modelini kullanmak istersem Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?
Fısıltı modeli veya Azure AI Konuşma modelleri
Fısıltı modeli veya Azure AI Konuşma modelleri senaryolarınıza bağlı olarak uygundur. Azure AI Konuşma'yı kullanmaya karar verirseniz Fısıltı modeli de dahil olmak üzere çeşitli modeller arasından seçim yapabilirsiniz. Aşağıdaki tablo, nereden başlayacağınızla ilgili önerilerle seçenekleri karşılaştırır.
Senaryo | Fısıltı modeli | Azure AI Konuşma modelleri |
---|---|---|
Ses ve video için gerçek zamanlı transkripsiyonlar, açıklamalı alt yazılar ve alt yazılar. | Kullanılamaz | Önerilir |
Önceden kaydedilmiş ses ve video için transkripsiyonlar, açıklamalı alt yazılar ve alt yazılar. | Azure OpenAI aracılığıyla Fısıltı modeli, tek tek ses dosyalarının hızlı işlenmesi için önerilir. Büyük dosyaların toplu işlenmesi için Azure AI Konuşma (toplu transkripsiyon) aracılığıyla Fısıltı modeli önerilir. Daha fazla bilgi için bkz . Azure AI Konuşma toplu transkripsiyonu veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli? | Büyük dosyaların toplu işlenmesi, gündağılama ve sözcük düzeyi zaman damgaları için önerilir. |
Arama özeti, yaklaşım, önemli konular ve özel içgörüler gibi telefon araması kayıtlarının ve analizlerinin dökümü. | Kullanılabilir | Önerilir |
Çağrı merkezi aracılarına müşteri soruları konusunda yardımcı olmak için gerçek zamanlı transkripsiyon ve analiz. | Kullanılamaz | Önerilir |
Toplantı özeti, toplantı bölümleri ve eylem öğesi ayıklama gibi toplantı kayıtlarının ve analizlerinin dökümü. | Kullanılabilir | Önerilir |
Ses diktesi aracılığıyla gerçek zamanlı metin girişi ve belge oluşturma. | Kullanılamaz | Önerilir |
İletişim merkezi ses aracısı: Arama merkezleri için arama yönlendirme ve etkileşimli sesli yanıt. | Kullanılabilir | Önerilir |
Sesli yardımcı: Set üstü kutu, mobil uygulama, araç içi ve diğer senaryolar için uygulamaya özgü sesli yardımcı. | Kullanılabilir | Önerilir |
Söyleniş değerlendirmesi: Konuşmacının sesinin söylenişini değerlendirin. | Kullanılamaz | Önerilir |
Canlı sesi bir dilden diğerine çevirin. | Kullanılamaz | Konuşma çevirisi API'si aracılığıyla önerilir |
Önceden kaydedilmiş sesi diğer dillerden İngilizceye çevirin. | Önerilir | Konuşma çevirisi API'sini kullanarak kullanılabilir |
Önceden kaydedilmiş sesi İngilizce dışındaki dillere çevirin. | Kullanılamaz | Konuşma çevirisi API'si aracılığıyla önerilir |
Azure AI Konuşma veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli mi?
Fısıltı modelini kullanmaya karar verirseniz iki seçeneğiniz vardır. Fısıltı Modeli'ni Azure OpenAI veya Azure AI Konuşma (toplu transkripsiyon) aracılığıyla kullanmayı seçebilirsiniz. Her iki durumda da, dökümü alınan metnin okunabilirliği aynıdır. Karışık dil ses girişi yapabilirsiniz ve çıkış İngilizcedir.
Azure OpenAI Hizmeti aracılığıyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:
- Ses dosyalarını teker teker hızla dönüştürme
- Sesi diğer dillerden İngilizceye çevirme
- Çıkışa kılavuzluk etmek için modele bir istem sağlayın
- Desteklenen dosya biçimleri: mp3, mp4, mpweg, mpga, m4a, wav ve webm
- Dosya adı için yalnızca ASCII karakteri desteklenir
Azure AI Konuşma toplu transkripsiyonu aracılığıyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:
- 25 MB'tan büyük dosyaları (1 GB'a kadar) dönüştürme. Azure OpenAI Whisper modeli için dosya boyutu sınırı 25 MB'tır.
- Büyük grup ses dosyalarının çevirisi.
- Konuşmaya katılan farklı konuşmacıları ayırt etmek için dillere ayırma. Konuşma tanıma hizmeti, dökümü alınmış konuşmanın belirli bir bölümünde konuşan konuşmacı hakkında bilgi sağlar. Azure OpenAI aracılığıyla Fısıltı modeli, ayrıştırma işlemini desteklemez.
- Sözcük düzeyi zaman damgaları
- Desteklenen dosya biçimleri: mp3, wav ve ogg.
Bölgesel destek de dikkat edilmesi gereken bir diğer konudur.
- Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: Doğu ABD 2, Hindistan Güney, Orta Kuzey, Norveç Doğu, Orta İsveç, Kuzey İsviçre ve Batı Avrupa.
- Azure AI Konuşma aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: Doğu Avustralya, Doğu ABD, Orta Kuzey ABD, Orta Güney ABD, Güneydoğu Asya, Güney Birleşik Krallık ve Batı Avrupa.