Özel konuşma için görüntüleme metin biçimi eğitim verilerini hazırlama

Azure AI Konuşma Tanıma hizmeti iki bileşen olarak görüntülenebilir: konuşma tanıma ve metin biçimlendirmesini görüntüleme. Konuşma tanıma, sesi sözcük temelli metne dönüştürür ve ardından sözcük temelli metin, metni görüntüleyecek şekilde dönüştürülür.

Metin görüntülemek için sözcük temelli konuşma tanıma akışının diyagramı.

Bunlar, görüntüleme metin biçimi özelliğini destekleyen yerel ayarlardır: da-DK, de-DE, en-AU, en-CA, en-GB, en-HK, en-IE, en-IN, en-NG, en-NZ, en-PH, en-SG, en-US, es-ES, es-MX, fi-FI, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, nb-NO, nl-NL, pl-PL, pt-BR, pt-PT, sv-SE, tr-TR, zh-CN, zh-HK.

Varsayılan görüntüleme metni biçimlendirmesi

Görüntüleme metni işlem hattı, bir dizi görüntüleme biçimi oluşturucusu tarafından oluşturulur. Her oluşturucu, ITN, büyük harfe çevirme ve küfür filtreleme gibi bir görüntüleme biçimi görevine karşılık gelir.

  • Ters Metin Normalleştirmesi (ITN) - Konuşulan form numaralarının metnini görüntüleme formuna dönüştürmek için. Örneğin: "I spend twenty dollars" -> "I spend $20"
  • Büyük harfe çevirme - Büyük harf varlık adlarına, kısaltmalarına veya tümcenin ilk harfine. Örneğin: "she is from microsoft" -> "She is from Microsoft"
  • Küfür filtreleme - Küfür sözcüklerini bir cümleden maskeleme veya kaldırma. Örneğin, "abcd"nin küfür içeren bir sözcük olduğunu varsayarsak, sözcük küfür maskeleme ile maskelenmiştir: "I never say abcd" -> "I never say ****"

Microsoft, genel amaçlı görüntüleme işleme görevleri için görüntüleme metni işlem hattının temel oluşturucularını korur. Konuşma hizmetini kullandığınızda varsayılan olarak temel oluşturucuları alırsınız. Hazır biçimlendirme hakkında daha fazla bilgi için bkz . Metin biçimini görüntüleme.

Özel görüntüleme metni biçimlendirmesi

Microsoft tarafından korunan temel oluşturucuların yanı sıra, belirli senaryolarınız için görüntüleme metin biçimlendirme işlem hattını özelleştirmek için özel görüntüleme metni biçimlendirme kuralları tanımlayabilirsiniz. Özel görüntüleme metni biçimlendirme kuralları, özel görüntüleme metni biçimlendirme dosyasında tanımlanır.

  • Özel ITN - Müşteriden bir kural tabanlı özel ITN modeli uygulayarak temel BTN'nin işlevlerini genişletin.
  • Özel yeniden yazma - Müşteriden gelen kural tabanlı modeli temel alarak bir tümceciği başka bir tümceciğe yeniden yazma.
  • Özel küfür filtreleme - Müşteriden gelen küfür sözcük listesini temel alarak küfür işleme gerçekleştirin.

Görüntüleme metni biçimlendirme işlem hattının sırası bu diyagramda gösterilmiştir.

Görüntü biçimi oluşturucularının diyagramı.

Özel ITN

Desen tabanlı özel ITN'nin felsefesi, görmek istediğiniz son çıkışı belirtebilmenizdir. Konuşma hizmeti, sözcüklerin nasıl konuşulabileceğini belirler ve tahmin edilen konuşulan ifadeleri belirtilen çıkış biçimiyle eşler.

Özel BIR ITN modeli, bir DIZI ITN kuralından oluşturulur. ITN kuralı, desen dizesi gibi aşağıdakilerin açıklandığı normal bir ifadedir:

  • Giriş dizesinin eşleşen deseni
  • Çıkış dizesinin istenen biçimi

İlk olarak Microsoft tarafından sağlanan varsayılan ITN kuralları uygulanır. Varsayılan ITN modelinin çıkışı, özel ITN modelinin girişi olarak kullanılır. Özel ITN modelinin içindeki eşleşen algoritma büyük/küçük harfe duyarlı değildir.

Özel ITN kurallarıyla eşleşen dört desen kategorisi vardır.

Değişmez değer içeren desenler

Örneğin, bir geliştiricinin alfasayısal formuyla JO:500adlı bir öğesi (ürün gibi) olabilir. Konuşma hizmeti, kullanıcıların harf kısmını olarak J Oveya olarak five double zerofive zero zero five hundred five oh oh sayabileceklerini joeve ardından tüm bu olasılıkları (iki nokta üst üste ekleme dahil) eşleyen JO:500 bir model oluşturabileceklerini fark eder.

Desenler, görüntüleme metni biçimlendirme dosyasında satır başına bir kural belirtilerek paralel olarak uygulanabilir. İki kural belirten bir görüntüleme metni biçimlendirme dosyası örneği aşağıda verilmiştir:

JO:500
MM:760

Joker karakterler içeren desenler

Tüm olasılıkları çeşitli şekillerde hecelemek zorunda kalmadan bir dizi alfasayısal öğeye (, JO:500JO:600, JO:700gibi) başvurabilirsiniz.

Karakter aralıkları gösterimiyle [...]belirtilebilir, bu nedenle JO:[5-7]00 üç desen yazmaya eşdeğerdir.

Ayrıca kullanılabilecek bir dizi joker karakter de vardır. Bunlardan biri , \dherhangi bir rakam anlamına gelir. Bu nedenle JO:\d00 , JO:100ve diğer ögelerini JO:900kapsarJO:000.

Normal ifadede olduğu gibi, bir ITN kuralı için önceden tanımlanmış birden çok karakter sınıfı vardır:

  • \d - '0' ile '9' arasında bir rakamı eşleştirin ve doğrudan çıkışını alın
  • \l - bir harfi (büyük/küçük harfe duyarsız) eşleştirin ve küçük harfe çevirin
  • \u - bir harfi (büyük/küçük harfe duyarsız) eşleştirin ve büyük harfe geçirin
  • \a - bir harfi (büyük/küçük harfe duyarsız) eşleştirin ve doğrudan çıktısını alın

Ayrıca, özel söz dizimsel anlamı olan karakterlere başvurmak için kaçış ifadeleri de vardır:

  • \\ - eşleştirme ve çıkış karakteri \
  • \( ve \)
  • \{ ve \}
  • \|
  • \+ve ve \?\*

Regex stili gösterimi olan desenler

Desen yazma esnekliğini geliştirmek için, alternatifler ve Kleene-kapanış ile ifade benzeri normal ifade yapıları desteklenir.

  • Bir tümcecik ayraçla gösterilir, örneğin (...) - Parantezler tam olarak eşleştirilecek karakter olarak sayılmaz.
  • Bir tümcecik içindeki alternatifleri gibi (AB|CDE)bir karakterle | belirtebilirsiniz.
  • Bir tümceciği isteğe bağlı olduğunu belirtmek, + tekrar edilebileceğini belirtmek veya * her ikisini de belirtmek için ile ? sonekleyebilirsiniz. Tek tek karakterlerle değil yalnızca bu karakterlerle tümcecikler ekleyebilirsiniz (çoğu normal ifade uygulamasından daha kısıtlayıcıdır).

gibi bir (AB|CD)-(\d)+ desen "AB-9" veya "CD-22" gibi yapıları temsil eder ve ve C D twenty two (veya C D two two) gibi A B nine konuşulan sözcüklere genişletilebilir.

Açık değiştirmeli desenler

Genel felsefe şudur: "Bize çıkışın nasıl görünmesi gerektiğini göstermelisiniz ve Konuşma tanıma hizmeti insanların bunu nasıl söylediklerini bulur." Ancak bu her zaman işe yaramaz çünkü bazı senaryolarda garip tahmin edilemeyen konuşma yöntemleri olabilir veya Konuşma hizmeti arka plan kurallarında boşluklar olabilir. Örneğin, baş harfler ve kısaltmalar için harmansal söylenişler olabilir; ZPI olarak zippykonuşulabilir. Bu durumda, bir kullanıcı tarafından ifadesiyle zippy twenty twobenzer ZPI-\d\d bir desenin çalışması pek olası değildir. Bu tür durumlarda, bir görüntüleme metni biçimi gösterimi {spoken>written}vardır. Bu özel durum yazılabilir {zippy>ZPI}-\d\d.

Bu, Konuşma eşleme kurallarının henüz desteklemediğini işlerken yararlı olabilir. Örneğin, sistemin "-" değerinin bir aralık anlamına geldiğini anlamasını ve içinde twenty to thirtyolduğu gibi olarak telaffuz toedilmesi gerektiğini anlamasını bekleyen bir desen \d0-\d0 yazabilirsiniz. Ama belki de öyle değildir. Böylece gibi \d0{to>-}\d0 daha açık bir desen yazabilir ve çizginin nasıl okunmasını beklediğinizi anlatabilirsiniz.

Ayrıca, tanınması > ancak yoksayılması gereken sözcükleri belirtmek için ve aşağıdaki yazılı formu da atlayabilirsiniz. Bu nedenle, gibi {write} (\u.)+ bir desen parçayı tanır write A B C ve çıkışını write A.B.Cbırakır.

Özel ITN Örnekleri

Grup basamakları

6 basamağı iki grup halinde gruplandırmak ve bunların arasına bir '-' karakteri eklemek için:

ITN kuralı: \d\d\d-\d\d\d Örnek: "cadence one oh five one fifteen" -> "cadence 105-115"

Film adını biçimlendirme

Space: 1999 , onu desteklemek için ünlü bir filmdir:

ITN kuralı: Space: 1999 Örnek: "watching space nineteen ninety nine" -> "watching Space: 1999"

Değiştirmeli Desen

ITN kuralı: \d[05]{ to >-}\d[05] Örnek: fifteen to twenty -> 15-20

Özel yeniden yazma

Genel olarak, bir giriş dizesi için yeniden yazma modeli giriş dizesindeki değerini her yeniden yazma kuralı için karşılık gelen new phrase ile değiştirmeyi original phrase dener. Yeniden yazma modeli, yeniden yazma kuralları koleksiyonudur.

  • Yeniden yazma kuralı iki tümcecik çiftidir: özgün tümcecik ve yeni bir tümcecik.
  • İki tümcecik bir SEKME karakteriyle ayrılır. Örneğin, original phrase{TAB}new phrase.
  • Özgün tümcecik eşleştirilir (büyük/küçük harfe duyarlı değildir) ve yeni tümcecik (büyük/küçük harfe duyarlı) ile değiştirilir. Eşleşme sırasında özgün tümcecikteki dil bilgisi noktalama işaretleri yoksayılır.
  • Herhangi bir yeniden yazma kuralı çakışırsa, eşleşme olarak daha uzun original phrase olan kullanılır.

Yeniden yazma modeli varsayılan olarak dil bilgisi büyük harf kullanımını destekler ve bu da gibi yerel ayarlar için en-US tümcenin ilk harfini büyük harfe çevirir. Konuşma tanıma isteğinde görüntüleme metni biçimlendirmesinin büyük harfe çevirme özelliği kapalıysa kapatılır.

Dil bilgisi noktalama işaretleri

Dil bilgisi noktalama işaretleri, tümceyi veya tümceciği ayırmak ve tümcenin veya tümcenin nasıl okunması gerektiğini netleştirmek için kullanılır.

. , ? 、 ! : ; ? 。 , ¿ ¡ । ؟ ،

Dil bilgisi noktalama kuralları şunlardır:

  • Desteklenen noktalama işaretleri, dil bilgisi noktalama işaretlerine yöneliktir; bunlar boşlukla izleniyorsa ya da tümcenin veya tümcenin başında veya sonunda yer alır. Örneğin, . içindeki x. y (ile yarasında . boşluk olan) bir dil bilgisi noktalama işaretidir.
  • Sözcüğün ortasındaki noktalama işaretleri (ve ja-jphariçzh-cn) dil bilgisi noktalama işaretleri değildir. Bu durumda, bunlar sıradan karakterlerdir. Örneğin, . in x.y bir dil bilgisi noktalama işareti değildir.
  • ve ja-jp (geçirgen olmayan yerel ayarlar) için zh-cn noktalama işaretleri, karakterler arasında olsalar bile her zaman dil bilgisi noktalama işaretleri olarak kullanılır. Örneğin, . in 中.文 bir dil bilgisi noktalama işaretidir.

Özel yeniden yazma örnekleri

Yazım düzeltme

Ad COVID-19 olarak covered 19tanınabilir. yerine covered 19 is a virusgörüntülendiğinden COVID-19 is a virus emin olmak için aşağıdaki yeniden yazma kuralını kullanın:

#rewrite
covered 19{TAB}COVID-19

Adı büyük harfe çevirme

Gottfried Wilhelm Leibniz Alman matematikçiydi. Büyük harfle yazılmasını Gottfried Wilhelm Leibniz sağlamak için aşağıdaki yeniden yazma kuralını kullanın:

#rewrite
gottfried leibniz{TAB}Gottfried Leibniz

Özel küfür

Özel küfür modeli, özel bir küfür tümceciği listesi kullanması dışında temel küfür modeliyle aynı şekilde davranır. Buna ek olarak, özel küfür modeli görüntüleme metni biçimlendirme dosyasında tanımlanan tüm küfür ifadelerini eşleştirmeye çalışır (büyük/küçük harfe duyarsız).

  • Küfür tümcecikleri eşleştirilir (büyük/küçük harfe duyarsız).
  • Küfür tümcecikleri kuralları çakışırsa, eşleşme olarak en uzun tümcecik kullanılır.
  • Bu noktalama işaretleri küfür tümceciğiyle desteklenmez: . , ? 、 ! : ; ? 。 , ¿ ¡ । ؟ ، .
  • ve ja-JP yerel ayarlar için zh-CN İngilizce küfür tümcecikleri desteklenmez. İngilizce küfür sözcükleri desteklenir. ve ja-JP yerel ayarları için zh-CN küfür tümcecikleri desteklenir.

Konuşma tanıma isteği ayarlarınıza bağlı olarak küfür kaldırılır veya maskelenmiştir.

Görüntüleme metin biçimi kural dosyasına küfür eklendikten ve özel model eğitildikten sonra, toplu konuşmada metne ve gerçek zamanlı konuşmayı metne dönüştürmede varsayılan çıkış için kullanılır.

Özel küfür örnekleri

Görüntü metni biçimlendirme dosyasında küfür sözcüklerini ve tümcecikleri maskelemeyi gösteren bazı örnekler aşağıda verilmiştir.

Tek küfür sözcüğünü maskele örneği

Küfür sözcüğü olduğunu varsayalım xyz . Eklemek için:

#profanity
xyz

İşte bir test örneği: Turned on profanity masking to mask xyz -> Turned on profanity masking to mask ***

Küfür ifadesini maskele

Küfür ifadesi olduğunu varsayalım abc lmn . Eklemek için:

#profanity
abc lmn

İşte bir test örneği: Turned on profanity masking to mask abc lmn -> Turned on profanity masking to mask *** ***

Sonraki Adımlar