Fısıltı modeli nedir?

Whisper modeli, OpenAI'den ses dosyalarının dökümünü almak için kullanabileceğiniz bir metin modelidir. Model, büyük bir İngilizce ses ve metin veri kümesi üzerinde eğitilir. Model, İngilizce konuşma içeren ses dosyalarının çevirisi için iyileştirilmiştir. Model, diğer dillerde konuşma içeren ses dosyalarının dökümünü almak için de kullanılabilir. Modelin çıktısı İngilizce metindir.

Fısıltı modelleri Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla kullanılabilir. Özellikler bu teklifler için farklılık gösterir. Azure AI Konuşma (toplu transkripsiyon)'da Whisper, konuşmayı metne dönüştürme için kullanabileceğiniz birkaç modelden yalnızca biridir.

Şu soruları sorabilirsiniz:

  • Fısıltı Modeli senaryom için iyi bir seçim mi yoksa Azure AI Konuşma modeli daha mı iyi? İki model türü arasındaki API karşılaştırmaları nelerdir?

  • Fısıltı Modelini kullanmak istersem Azure OpenAI Hizmeti veya Azure AI Konuşma aracılığıyla mı kullanmalıyım? Birini veya diğerini kullanmama yol gösteren senaryolar nelerdir?

Fısıltı modeli veya Azure AI Konuşma modelleri

Fısıltı modeli veya Azure AI Konuşma modelleri senaryolarınıza bağlı olarak uygundur. Azure AI Konuşma'yı kullanmaya karar verirseniz Fısıltı modeli de dahil olmak üzere çeşitli modeller arasından seçim yapabilirsiniz. Aşağıdaki tablo, nereden başlayacağınızla ilgili önerilerle seçenekleri karşılaştırır.

Senaryo Fısıltı modeli Azure AI Konuşma modelleri
Ses ve video için gerçek zamanlı transkripsiyonlar, açıklamalı alt yazılar ve alt yazılar. Kullanılamaz Önerilir
Önceden kaydedilmiş ses ve video için transkripsiyonlar, açıklamalı alt yazılar ve alt yazılar. Azure OpenAI aracılığıyla Fısıltı modeli, tek tek ses dosyalarının hızlı işlenmesi için önerilir. Büyük dosyaların toplu işlenmesi için Azure AI Konuşma (toplu transkripsiyon) aracılığıyla Fısıltı modeli önerilir. Daha fazla bilgi için bkz . Azure AI Konuşma toplu transkripsiyonu veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli? Büyük dosyaların toplu işlenmesi, gündağılama ve sözcük düzeyi zaman damgaları için önerilir.
Arama özeti, yaklaşım, önemli konular ve özel içgörüler gibi telefon araması kayıtlarının ve analizlerinin dökümü. Kullanılabilir Önerilir
Çağrı merkezi aracılarına müşteri soruları konusunda yardımcı olmak için gerçek zamanlı transkripsiyon ve analiz. Kullanılamaz Önerilir
Toplantı özeti, toplantı bölümleri ve eylem öğesi ayıklama gibi toplantı kayıtlarının ve analizlerinin dökümü. Kullanılabilir Önerilir
Ses diktesi aracılığıyla gerçek zamanlı metin girişi ve belge oluşturma. Kullanılamaz Önerilir
İletişim merkezi ses aracısı: Arama merkezleri için arama yönlendirme ve etkileşimli sesli yanıt. Kullanılabilir Önerilir
Sesli yardımcı: Set üstü kutu, mobil uygulama, araç içi ve diğer senaryolar için uygulamaya özgü sesli yardımcı. Kullanılabilir Önerilir
Söyleniş değerlendirmesi: Konuşmacının sesinin söylenişini değerlendirin. Kullanılamaz Önerilir
Canlı sesi bir dilden diğerine çevirin. Kullanılamaz Konuşma çevirisi API'si aracılığıyla önerilir
Önceden kaydedilmiş sesi diğer dillerden İngilizceye çevirin. Önerilir Konuşma çevirisi API'sini kullanarak kullanılabilir
Önceden kaydedilmiş sesi İngilizce dışındaki dillere çevirin. Kullanılamaz Konuşma çevirisi API'si aracılığıyla önerilir

Azure AI Konuşma veya Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli mi?

Fısıltı modelini kullanmaya karar verirseniz iki seçeneğiniz vardır. Fısıltı Modeli'ni Azure OpenAI veya Azure AI Konuşma (toplu transkripsiyon) aracılığıyla kullanmayı seçebilirsiniz. Her iki durumda da, dökümü alınan metnin okunabilirliği aynıdır. Karışık dil ses girişi yapabilirsiniz ve çıkış İngilizcedir.

Azure OpenAI Hizmeti aracılığıyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:

  • Ses dosyalarını teker teker hızla dönüştürme
  • Sesi diğer dillerden İngilizceye çevirme
  • Çıkışa kılavuzluk etmek için modele bir istem sağlayın
  • Desteklenen dosya biçimleri: mp3, mp4, mpweg, mpga, m4a, wav ve webm
  • Dosya adı için yalnızca ASCII karakteri desteklenir

Azure AI Konuşma toplu transkripsiyonu aracılığıyla Fısıltı Modeli aşağıdakiler için en iyi yöntem olabilir:

  • 25 MB'tan büyük dosyaları (1 GB'a kadar) dönüştürme. Azure OpenAI Whisper modeli için dosya boyutu sınırı 25 MB'tır.
  • Büyük grup ses dosyalarının çevirisi.
  • Konuşmaya katılan farklı konuşmacıları ayırt etmek için dillere ayırma. Konuşma tanıma hizmeti, dökümü alınmış konuşmanın belirli bir bölümünde konuşan konuşmacı hakkında bilgi sağlar. Azure OpenAI aracılığıyla Fısıltı modeli, ayrıştırma işlemini desteklemez.
  • Sözcük düzeyi zaman damgaları
  • Desteklenen dosya biçimleri: mp3, wav ve ogg.

Bölgesel destek de dikkat edilmesi gereken bir diğer konudur.

  • Azure OpenAI Hizmeti aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: Doğu ABD 2, Hindistan Güney, Orta Kuzey, Norveç Doğu, Orta İsveç, Kuzey İsviçre ve Batı Avrupa.
  • Azure AI Konuşma aracılığıyla Fısıltı modeli şu bölgelerde kullanılabilir: Doğu Avustralya, Doğu ABD, Orta Kuzey ABD, Orta Güney ABD, Güneydoğu Asya, Güney Birleşik Krallık ve Batı Avrupa.