Metinden N-Gram Özelliklerini Ayıklama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

N-Gram sözlük özellikleri oluşturur ve üzerinde özellik seçimi yapar

Kategori: Metin Analizi

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, metinlere özellik kazandırma ve uzun metin dizelerinden yalnızca en önemli bilgi parçalarını ayıklamak için Machine Learning Studio'daki (klasik) Metinden N-Gram Özelliklerini Ayıklama modülünün nasıl kullanımı açıklanmıştır.

Modül, giriş olarak belirttiğiniz serbest metin sütunundan n-grams sözlüğü oluşturarak çalışır. Modül, veri boyutsallığı azaltmak ve en fazla bilgi değerine sahip n-gram'ları belirlemek için n-gram listesine çeşitli bilgi ölçümleri uygular.

N-gram sözlüğü oluşturduysanız, tercih etmiş bir ağırlık algoritması kullanarak istatistiklerini güncelleştirebilirsiniz veya yeni terimlerde birleştirebilirsiniz.

Bu modül n-gram'dan özelikleştirmeyi desteklediğinden puanlama için de kullanılabilir.

Metinden N Gram Özelliklerini Ayıklamayı Yapılandırma

Bu modül, n-gram sözlüğü oluşturmak, güncelleştirmek veya uygulamak için aşağıdaki senaryoları destekler:

  • Boş metin sütununu kullanarak yeni bir model geliştiriyor ve yalnızca giriş verilerine göre metin özelliklerini ayıklamak istiyorsanız. Yönergelere bakın.

  • Mevcut bir metin özellikleri kümeniz var ve yeni metin girişlerini işerek ağırlıkları güncelleştirmek istiyor. Yönergelere bakın.

  • Tahmine dayalı bir modelden puan oluşturarak puanlama işleminin bir parçası olarak n-gram sözlüğü ile metin girişleri oluşturmalı ve kullana ihtiyacınız vardır. Yönergelere bakın.

Örnek denemeyi başvuru için kullanabilirsiniz.

Metin sütunundan yeni bir n-gram sözlüğü oluşturma

  1. Metinden N-Gram Özelliklerini Ayıklama modülünü denemenize ekleyin ve işlemesini istediğiniz metni olan veri kümesine bağlanın.

  2. Metin sütunu için, ayıklamak istediğiniz metni içeren dize türünde bir sütun seçin.

    Varsayılan olarak, modül tüm dize sütunlarını seçer. Ancak, sonuç ayrıntılı olduğundan, aynı anda tek bir sütunu işlemeye ihtiyacınız olabilir.

  3. Sözlük modu için Oluştur'u seçerek n-gram özelliklerinin yeni bir listesini oluşturmakta olduğunu gösterir.

    Mevcut n-gram özellik kümelerini güncelleştirme hakkında bilgi için bu bölüme bakın.

  4. N-Gram boyutu için, ayıklanan ve depolanan n-gram'ın maksimum boyutunu gösteren bir sayı yazın.

    Örneğin, , tek 3birimleri, bigrams ve trigram'ları yazarak oluşturulur.

  5. K-Atlama boyutu için n-gram çeşitlemelerini tanımlamada farklı olan maksimum karakter sayısını yazın. k değeri 0 olarak ayarlanırsa, n-gram yalnızca benzersiz, bitişik bir karakter dizisinde oluşturulabilir.

    Örneğin sözlüğünde tek birimin "bilgisayar" olduğunu varsayalım. K değeri 0, "bilgisayar" tek geçerli tek bir birimin olduğu anlamına geliyor. k değerini 1'e artırıyorsanız, daha benzer diziler bulamamanizi sağlayan bir müdahale karakteri atlayabilirsiniz. K değeri 1 olan bir skip-gram, 0-k tek biriminden bir karakterden farklı olabilir. Bu nedenle, skip-grams "conputer" ve "compuuter" her ikisi de "bilgisayar" ile aynı sözlük girişinin parçası olarak kabul edilir. K değerinin 2 olarak ayarlandırarak daha da farklı sözcüklerle eşleşmesi gerekir.

    Metin analizinde skip-grams'ın nasıl kullandığı hakkında daha fazla bilgi için şu makaleye bakın: Denetimli Sözcük Normalleştirme için Aday Oluşturma ve Özellik Mühendisliği

  6. Weighting işlevi seçeneği yalnızca sözlükleri birleştiriyor veya güncelleştiriyorsanız gereklidir. İki sözlükte terimlerin ve puanların birbirine göre nasıl ağırlıklarının gerektiğini belirtir.

  7. Minimum sözcük uzunluğu için, çözümlen dizelerin en düşük sözcük uzunluğunu yazın.

    Örneğin, en düşük sözcük uzunluğunun 3 (varsayılan değer) olarak ayar olduğunu ve tek bir sözcüğü olan bir girişin ve "güzel yer" gibi kısa metinlerin yer alan başka bir girişe sahip olduğunu varsayalım. Her iki satır da yoksayılır.

  8. Maksimum sözcük uzunluğu için, n-gram'daki tek bir sözcükte kullanılan maksimum harf sayısını yazın.

    Varsayılan olarak, sözcük veya belirteç başına en fazla 25 karaktere izin verilir. Kaldırılandan daha uzun sözcükler, bunların gerçek sözcük sözcük öğeleri yerine rastgele karakter dizileri olduğu varsayımı üzerine kaldırılır.

  9. Minimum n-gram belge mutlak sıklığı için, n-gram sözlüğüne tek bir sözcük veya belirteci dahil etmek için gereken en düşük oluşumları gösteren bir sayı yazın.

    Örneğin, varsayılan 5 değerini kullanırsanız, n-gram sözlüğüne dahil edilecek herhangi bir n-gram veya skip-gram,corpus içinde en az beş kez görün gerekir.

  10. Maksimum n-gram belge oranı için bu oranı temsil eden bir sayı yazın: belirli bir n-gram içeren satır sayısı, genel corpus'daki satır sayısının üzerine.

    Örneğin, 1 oranı, her satırda belirli bir n-gram olsa bile n-gram sözlüğüne eklen olduğunu gösteriyor olabilir. Daha tipik olarak, her satırda oluşan bir sözcük bir gürültü sözcüğü olarak kabul edilir ve kaldırılır. Etki alanına bağımlı gürültü sözcüklerini filtrelemek için bu oranı azaltmayı deneyin.

    Önemli

    Belirli sözcüklerin oluşma oranı tekdüz değildir, ancak belgeden belgeye değişiklik gösterir. Örneğin, belirli bir ürünle ilgili müşteri yorumlarını analiz ediyorsanız, ürün adı çok yüksek sıklıkta ve bir gürültü sözcüğüne yakın olabilir, ancak diğer bağlamlarda önemli bir terim olabilir.

  11. n-gram sözlüğünde olmayan sözcükleri içeren ve "sözlük dışında" (OOV) sözcükler olarak adlandırılan herhangi bir satır için bir gösterge oluşturmak için Sözlük dışında satırları algıla seçeneğini belirleyin.

    Tüm sözlükler sınırlıdır; Bu nedenle, metin corpus'nizin sözlük veya n-gram sözlüğünde olmayan sözcükleri içermesi neredeyse garantidir. Ancak bu tür sözcüklerin dil modelleri üzerinde farklı etkileri olabilir ve sözlük (IV) sözcüklerine kıyasla daha yüksek hata oranları söz konusu olabilir. Etki alanınıza bağlı olarak, bu OOV sözcükleri önemli içerik sözcüklerini temsil ediyor olabilir.

    Bu sözcükleri içeren satırları tanımarak, bu terimlerin etkilerini telafi ya da terimleri ve ilgili satırları ayrı olarak işebilirsiniz.

  12. n-gram sözlüğünde bir cümlenin başlangıcını gösteren özel bir karakter dizisi eklemek için Mark begin-of-sentence seçeneğini belirleyin. Bir cümleyi özel karakterle başlatan n-gram ön ekleri, metin analizinde yaygındır ve söylem sınırlarını analiz etmede yararlı olabilir.

    Azure ML Studio (klasik) simgesi ekler|||. Özel bir karakter belirtemezseniz.

  13. Özellik vektörlerini normalleştirmek için n-gram özellik vektörlerini normalleştir seçeneğini belirleyin. Bunu yapmak için her n-gram özellik vektörü kendi L2 normu tarafından bölündü.

    Normalleştirme varsayılan olarak kullanılır.

  14. Metin özelliği vektörü boyutunu yönetmek içinek seçenekleri etkinleştirmek için Filtre tabanlı özellik seçimini kullan ayarını True olarak ayarlayın.

    • Özellik seçimi, n-gram'ların boyutsallıklarını azaltmaya yardımcı olabilir.
    • Filtre seçimi uygulamazken tüm olası n-gram'lar oluşturulur ve sözlük daha uzun hale gelir ve büyük olasılıkla çok sayıda seyrek terim dahil olur.
    • Küçük bir şirket içinde, özellik seçiminin kullanımı oluşturulan terimlerin sayısını önemli ölçüde azaltabilirsiniz.
    • Daha fazla bilgi için bkz . Filtre Tabanlı Özellik Seçimi.

    Özellik seçimi kullanıyorsanız Özellik puanlama yöntemi açılan listesinden bir yöntem seçmeniz gerekir:

    • PearsonCorrelation: Pearson'ın bağıntılarını etiket sütunu değerine ve metin vektörüne göre hesaplar.
    • MutualInformation: Etiket sütunu değerine ve metin vektörüne göre karşılıklı bilgi puanını hesaplar.
    • KendallCorrelation: Etiket sütunu değerine ve metin vektörüne göre Kendall'ın bağıntılarını hesaplar.
    • SpearmanCorrelation: Spearman bağıntılarını etiket sütunu değerine ve metin vektörüne göre hesaplar.
    • ChiSquared: Etiket sütunu değeri ile metin vektörü arasındaki bağıntıyı hesaplamak için kikare yöntemini kullanır.
    • FisherScore: Etiket sütunu değeri ve metin vektörü için Fisher puanını hesaplar.
    • Sayı tabanlı özellik seçimi: Değer sayılarına göre yeni özellikler oluşturur. Bu yöntemde etiket sütunu gerekli değildir.

    Seçtiğiniz yönteme bağlı olarak aşağıdaki seçeneklerden birini belirleyin:

    • İstenen özellik sayısı: Sayı tabanlı özellik seçimi dışında bir özellik seçimi yöntemi kullanıyorsanız gereklidir.

      Özellik seçimi sürecinde tüm n-gram'lar bir özellik puanı alır ve n-gram puana göre dereceler. Burada ayar değeriniz, en yüksek dereceli özelliklerin kaç tane çıkış olduğunu belirler. Daha düşük özellik puanlarına sahip N gram atılır.

    • Sıfır olmayan minimum öğe sayısı: Sayı tabanlı özellik seçimi kullanıyorsanız gereklidir.

      Olası bir özelliğin sayılarını tablo olarak belirlemek için gereken en düşük toplam örnek sayısını temsil eden bir tam sayı yazın.

  15. Denemeyi çalıştırın.

    Sonuçların ve biçimlerinin açıklaması için bu bölüme bakın.

Mevcut n-gram sözlüğü güncelleştirme veya sözlükleri birleştirme

  1. Metinden N-Gram Özelliklerini Ayıklama modülünü denemenize ekleyin ve işlemesini istediğiniz metnin yer olduğu veri kümesine Veri Kümesi bağlantı noktasına bağlanın.

  2. Metin sütunu için, özel olarak kazandırma istediğiniz metni içeren metin sütununu seçin. Varsayılan olarak modül, dize türüne sahip tüm sütunları seçer. En iyi sonuçları elde etmek için tek bir sütunu aynı anda işebilirsiniz.

  3. Önceden oluşturulmuş bir n-gram sözlüğü içeren kaydedilmiş veri kümesini ekleyin ve Giriş sözlüğü bağlantı noktasına takın. Metinden N-Gram Özelliklerini Ayıklama modülünün yukarı akış örneğinin Sonuç sözlüğü çıkışını da bebilirsiniz .

    Sözlüğü birleştirmek veya güncelleştirmek için giriş sözlüğü şemasının beklenen biçimle tam olarak eşleşmesi gerekir. giriş sözlüğünden herhangi bir sütunu kaldırmayın veya giriş sözlüğüne sütun ekleyin.

  4. Sözlük modu için açılan listeden aşağıdaki güncelleştirme seçeneklerinden birini belirleyin:

    • ReadOnly: Giriş sözlüğü açısından giriş corpus'larını temsil eder. Başka bir ifadeyle, yeni metin veri kümesinden (sol girişte) terim sıklıklarını hesaplamak yerine giriş sözlüğünden n-gram ağırlıkları olduğu gibi uygulanır.

      İpucu

      Metin sınıflandırıcı puanlamada bu seçeneği kullanın.

    • Güncelleştirme: Giriş sözlüğünden yeni bir n-gram sözlüğü oluşturur ve bunu giriş sözlüğüyle birleştirmektedir. Başka bir deyişle, giriş sözlüğünden oluşturulan sözlüğüne yeni girişler ekleyebilir veya mevcut girişleri güncelleştirin.

      İpucu

      Gelen veri toplu işleri ile sözlüğün artımlı güncelleştirmeleri için bu seçeneği kullanın.

    • Birleştirme: Giriş sözlüğünden yeni bir n-gram sözlüğü üretir.

      Bu seçenek, modüle giriş olarak bir arka plan sözlüğü geçiyorsanız ve durdurma sözcüklerinin ağırlığını azaltmak istediğinizde kullanışlıdır. Başka bir deyişle, arka plan sözlüğünde yüksek belge sıklığı puanına sahip her girişe oluşturulan sözlükte daha düşük ters belge sıklığı puanı atanır.

      İpucu

      Girişten oluşturulan sözlükte yeni girişler eklemek istemiyorsanız ve yalnızca mevcut girişlerin puanlarını ayarlamak istemiyorsanız bu seçeneği kullanın.

  5. Sözlükleri birleştiriyor veya güncelleştiriyorsanız Ağırlık işlevini seçin seçeneği gereklidir. Weighting işlevi, DF ve IDF'nin iki sözlükte nasıl puana sahip olması gerektiğini belirtir:

    • İkili Ağırlık: Ayıklanan n-gram'lara ikili varlık değeri atar. Başka bir deyişle, her n-gram değeri, verilen belgede mevcut olduğunda 1, aksi takdirde 0'dır.
    • TF Ağırlığı: Ayıklanan n-gram'a bir terim sıklığı puanı (TF) atar. Her n-gram değerinin, verilen belgede oluşum sıklığı olduğudur.
    • IDF Ağırlığı: Ayıklanan n-gram'lara ters bir belge sıklığı puanı (IDF) atar. Her n-gram değerinin, corpus boyutunun günlüğü, tüm corpus'daki oluşum sıklığına bölündü. Yani: IDF = log of corpus_size / document_frequency
    • TF-IDF Ağırlığı: Ayıklanan n-gram'lara terim sıklığı/ters belge sıklığı puanı (TF/IDF) atar. Her n-gram değerinin TF puanı, IDF puanıyla çarpılır.
    • Graph Ağırlık: TextRank graf derecelendirmesini temel alarak ayıklanan n-gram'a puan atar. TextRank, metin işlemeye ilişkin grafik tabanlı bir derecelendirme modelidir. Graph tabanlı sıralama algoritmaları temelde genel bilgilere dayalı olarak önem derecelerine karar vermenin bir yolutur. Daha fazla bilgi için bkz. TextRank: Bringing Order into Texts by Rada Mihalcea ve Paul Tarau.
  6. Diğer tüm seçenekler için önceki bölümde yer alan özellik açıklamalarını bulabilirsiniz.

  7. Denemeyi çalıştırın.

    Sonuçların ve biçimlerinin açıklaması için bu bölüme bakın.

n-gram kullanan bir modeli puanlayın veya yayımlayın

  1. Eğitim veri akışından Metinden N-Gram Özelliklerini Ayıklama modülünü puanlama veri akışına kopyalayın.

  2. Bağlan veri akışından Sonuç Sözlüğü çıktısını puanlama veri akışında Giriş Sözlüğü'ne seçin.

  3. Puanlama iş akışında Metinden N-Gram Özelliklerini Ayıklama modülünü değiştirerek bu değişiklikleri yapın ve diğer tüm özellikleri aynı bırakarak yapın:

    • Sözlük modu parametresiniReadOnly olarak ayarlayın.

    • Filtre tabanlı özellik kullan seçeneğini olarak değiştirme False.

  4. Denemeyi yayımlamak için Sonuç Sözlüğü'ne veri kümesi olarak kaydedin.

    Ardından, kaydedilen veri kümesine puanlama grafiğinizin Metinden N-Gram Özelliklerini Ayıklama modülüne bağlanın.

Sonuçlar

Metinden N-Gram Özelliklerini Ayıklama modülü iki tür çıkış oluşturur:

  • Sonuç veri kümesi: Ayıklanan n-gram ile birlikte analiz edilen metnin özeti. Metin sütunu seçeneğindeseçmediyseniz sütunlar çıkışa geçirtir. Modül, analiz etmek istediğiniz her metin sütunu için şu sütunları oluşturur:

    • NgramsString: Tüm benzersiz n-gram'ları içeren bir dize.
    • NumUniqueNgrams: Belirtilen özellikler kullanılarak ayıklanan n-gram sayısı.
    • n-gram oluşumlarının seyrek matrisi: Modül, toplam corpus içinde bulunan her n-gram için bir sütun oluşturur ve bu satır için n-gram'ın ağırlığını belirtmek üzere her sütuna bir puan ekler.
  • Sonuç sözlüğü: Sözlük, gerçek n-gram sözlüğü ile analizin bir parçası olarak oluşturulan frequency puanları terimini içerir. Veri kümesini farklı bir giriş kümesiyle yeniden kullanmak veya daha sonraki bir güncelleştirme için kaydedebilirsiniz. Ayrıca puanları güncelleştirin veya modelleme ve puanlama için sözlüğü yeniden kullanabilirsiniz.

Örnek sonuçlar

Sonuçları nasıl kullanabileceğiniz göstermek için aşağıdaki kısa örnekte Studio'da (klasik) bulunan Amazon Book Review veri kümesi ılmaktadır. Veri kümesi yalnızca 4 veya 5 puanlı incelemeleri ve dize uzunluğu 300 karakterden küçük olan incelemeleri gösterecek şekilde filtrelenmişti.

Bu veri kümesinden yalnızca 92 sözcük içeren kısa bir gözden geçirme seçildi. Burada yazarın adı ile değiştirilmiştir Xxx ve kitap başlığı ile değiştirilmiştir Yyy:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Örnek gözden geçirme metni için sonuç veri kümesi

Bu örnek için modül şu sütunları oluşturt:

  • NumUniqueNgrams: Bu 92 sözcük incelemesinde varsayılan ayarlar kullanılarak örnek gözden geçirmeden 11 n gram ayıklandı.

    n-gram uzunluğu 3'e artırıldı ve skip-gram değeri 1 olarak ayarlandı, 15 n-gram bulundu.

    Özellik seçimi varsayılana uygulandığında n-gram ayıklandı.

  • NgramsString:Varsayılan ayarlarla şu n-gram döndürüldü: ["his","best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel"]

    N-gram uzunluğu 3 ve atlama-gram değeri 1 ile şu n-gram döndürüldü: ["his","best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel","best_one","one_best","highly_this","highly_recommend_this]

  • N-gram oluşumlarının seyrek matrisi

    Bu özellikle gözden geçirme için sonuçlar şu sütunları içerir:

    ReviewText. [yönetir] ReviewText. [and_highly] ReviewText. [yüksek] ReviewText. [highly_recommend]
    0 0 0.301511 0.301511

    İpucu

    Belirli bir sütunu görüntülerken sorun oluşursa, Çıktıya Veri Kümesinde Sütunları Seçme modülünü iliştirin ve ardından sütunları adlarına göre filtrelemek için arama işlevini kullanın.

Örnek gözden geçirme metni için sonuç sözlüğü

Sözlük, analizin bir parçası olarak oluşturulan frequency puanları terimiyle birlikte gerçek n-gram sözlüğü içerir. Veri kümesini farklı bir giriş kümesiyle yeniden kullanmak veya daha sonraki bir güncelleştirme için kaydedebilirsiniz. DF veIDF puanları , diğer seçeneklerden bağımsız olarak oluşturulur. Sözlükleri birleştirerek bu depolanmış değerler, seçtiğiniz ağırlıklama işlevinin girişi olarak kullanılır.

  • Kimlik: Her benzersiz n-gram için oluşturulan tanımlayıcı.
  • Ngram: n-gram. Boşluklar veya diğer sözcük ayırıcıları, alt çizgi karakteriyle değiştirilir.
  • DF: Özgün corpus içinde n-gram için terim sıklığı puanı.
  • IDF: Özgün corpus içinde n-gram için ters belge sıklığı puanı.

Bu veri kümesi el ile güncelleştirilebilir; bununla birlikte, hatalara neden olasanız da dikkatli olun. Örnek:

  • Modül giriş sözlüğünde aynı anahtara sahip yinelenen satırlar bulursa bir hata oluşur. Sözlükte aynı sözcüğün iki satıra sahip olduğundan emin olun.
  • Sözlük veri kümelerinin giriş şeması, sütun adları ve sütun türleri de dahil olmak üzere tam olarak eşleşmeli.
  • ID sütunu ve df puanı sütunu tamsayı türünde olmalıdır.
  • IDF sütunu float türünde olmalıdır (kayan nokta).

Teknik notlar

Metin corpmlarınızın boyutlanmasını ve en uygun özellik oranını öğrenmek için, n-gram uzunluğu, atlama-gram sayısı ve özellik seçiminin kullanımı gibi farklı değer aralıklarında denemeler yapmanızı öneririz.

N-gram ve atlama-gram hakkında daha fazla bilgi için şu kaynaklara bakın:

Beklenen girişler

Ad Tür Description
Veri kümesi Veri tablosu Giriş verileri
Giriş sözlüğü Veri tablosu Giriş sözlüğü

Modül parametreleri

Ad Tür Aralık İsteğe Bağlı Varsayılan Description
Sıfır olmayan öğe sayısı alt sınırı Tamsayı >değer Yalnızca aşağıdaki yöntem kullanıldığında geçerlidir:

Sayı tabanlı
1 Çıkışın özelliklerinin sayısını belirtin (Sayaçtabanlı Yöntem için)
Metin sütunu Sütun seçimi Gerekli StringFeature Metin sütununun adı veya tek tabanlı dizini
Sözlük modu Sözlük modu Oluştur

ReadOnly

Güncelleştir

Birleştir
Gerekli Oluştur N-gram sözlüğü 'nin yapı 'lerden nasıl oluşturulması gerektiğini belirtin
N-gram boyutu Tamsayı >değer Gerekli 1 Oluşturulacak en büyük n gram boyutunu belirtir
K-boyutu atla Tamsayı >sınama Gerekli 0 K-Skip boyutunu belirtin
Ağırlıklandırma işlevi Ağırlıklandırma Işlevi İkili ağırlık

TF ağırlığı

IDF ağırlığı

TF-ıDF ağırlığı

Graph ağırlığı
Gerekli İkili ağırlık Her n-gram değerine uygulamak için ağırlık fonksiyonunu seçin
Minimum sözcük uzunluğu Tamsayı >değer Gerekli 3 N gram içine dahil edilecek en az sözcük uzunluğunu belirtin
En fazla sözcük uzunluğu Tamsayı >= 2 Gerekli 25 N gram içine dahil edilecek en fazla sözcük uzunluğunu belirtin
En az n-gram belge mutlak sıklığı Float >= 1,0 Gerekli 5.0 En az n-gram belge mutlak sıklığı
En fazla n-gram belge oranı Float >= 0,0001 Gerekli 1.0 En fazla n-gram belge oranı
Sözlük dışı satırları Algıla Boole Gerekli true N-gram sözlük (OOV) içinde olmayan sözcüklerin bulunduğu satırları Algıla
Tümceyi işaretle Boole Gerekli yanlış Başlangıç tümcesi işaretinin n-gram 'a eklenip eklenmeyeceğini belirtin
n-gram özellik vektörlerini normalleştirme Boole Gerekli n-gram özellik vektörlerini normalleştirin. True ise, n-gram özellik vektörü L2 normu ile bölündü.
Filtre tabanlı özellik seçimini kullanma Doğru Yanlış Tür Doğru

Yanlış
Gerekli Doğru Boyutsallığı azaltmak için filtre tabanlı özellik seçimini kullanma
Özellik puanlama yöntemi Puanlama Yöntemi Pearson Bağıntısı

Karşılıklı Bilgiler

Kendall Correlation

Spearman Bağıntısı

Ki Karesi

Fisher Score

Sayı Tabanlı
Yalnızca Filtre tabanlı özellik kullan seçeneği True olduğunda geçerlidir Fisher Score Puanlama için kullanılan yöntemi seçme
Hedef sütun Sütun Seçimi Aşağıdaki yöntemlerden biri kullanırken geçerlidir:

Pearson Bağıntısı

Karşılıklı Bilgiler

Kendall Correlation

Spearman Bağıntısı

Ki Karesi

Fisher Score
Hedef sütunu belirtme
İstenen özellik sayısı Tamsayı >=1 Aşağıdaki yöntemlerden biri kullanırken geçerlidir:

Pearson Bağıntısı

Karşılıklı Bilgiler

Kendall Correlation

Spearman Bağıntısı

Ki Karesi

Fisher Score
1 Sonuçlarda çıkış olarak elde etmek istediğiniz özellik sayısını belirtin

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Ayıklanan özellikler
Sonuç sözlüğü Veri Tablosu Sonuç sözlüğü

Ayrıca bkz.

Metin Analizi
A-Z Machine Learning Listesi