Word'ü Vektöre Dönüştürme bileşeni
Bu makalede, şu görevleri gerçekleştirmek için Azure Machine Learning tasarımcısında Word'ü Vektöre Dönüştür bileşeninin nasıl kullanılacağı açıklanmaktadır:
- Giriş olarak belirttiğiniz metin korpuslarına çeşitli Word2Vec modelleri (Word2Vec, FastText, GloVe önceden eğitilmiş model) uygulayın.
- Sözcük eklemeleri ile bir kelime dağarcığı oluşturun.
Bu bileşen Gensim kitaplığını kullanır. Gensim hakkında daha fazla bilgi için öğreticiler ve algoritmaların açıklamasını içeren resmi web sitesine bakın.
Sözcükleri vektörlere dönüştürme hakkında daha fazla bilgi
Sözcükleri vektörlere veya sözcük vektörleştirmesine dönüştürmek, doğal bir dil işleme (NLP) işlemidir. İşlem, sözcükleri vektör uzayı ile eşlemek için dil modellerini kullanır. Vektör boşluğu, her sözcüğü gerçek sayılardan oluşan bir vektörle temsil eder. Ayrıca benzer anlamlara sahip sözcüklerin benzer gösterimlere sahip olması da sağlar.
Metin sınıflandırması ve yaklaşım analizi gibi NLP aşağı akış görevleri için ilk giriş olarak sözcük eklemeleri kullanın.
Çeşitli sözcük ekleme teknolojileri arasında, bu bileşende, yaygın olarak kullanılan üç yöntem uyguladık. İki, Word2Vec ve FastText, çevrimiçi eğitim modelleridir. Diğeri önceden eğitilmiş model, glove-wiki-gigaword-100.
Çevrimiçi eğitim modelleri giriş verileriniz üzerinde eğitilir. Önceden eğitilen modeller genellikle yaklaşık 100 milyar sözcük içeren daha büyük bir metin corpus (örneğin Wikipedia, Google News) üzerinde çevrimdışı olarak eğitilir. Ardından sözcük ekleme, sözcük vektörleştirmesi sırasında sabit kalır. Önceden eğitilmiş sözcük modelleri, daha kısa eğitim süresi, kodlanmış daha iyi sözcük vektörleri ve geliştirilmiş genel performans gibi avantajlar sağlar.
Yöntemler hakkında bazı bilgiler aşağıdadır:
Word2Vec, sığ bir sinir ağı kullanarak sözcük eklemeleri öğrenmenin en popüler tekniklerinden biridir. Teori, PDF indirmesi olarak sunulan bu makalede ele alınmaktadır: Vektör Uzayında Sözcük Gösterimlerinin Verimli Tahmini. Bu bileşendeki uygulama, Word2Vec için Gensim kitaplığını temel alır.
FastText teorisi, PDF indirme olarak sunulan bu makalede açıklanmıştır: Word Vektörlerini Subword Bilgileriyle Zenginleştirme. Bu bileşendeki uygulama, FastText için Gensim kitaplığını temel alır.
GloVe önceden eğitilmiş modeli glove-wiki-gigaword-100 modelidir. 5,6 milyar belirteç ve 400.000 harfsiz sözcük dağarcığı içeren Wikipedia metin corpus'u temel alan önceden eğitilmiş vektörlerden oluşan bir koleksiyondur. PDF indirme kullanılabilir: GloVe: Word Gösterimi için Genel Vektörler.
Word'ü Vektöre Dönüştür'ü yapılandırma
Bu bileşen, bir metin sütunu içeren bir veri kümesi gerektirir. Önceden işlenmiş metin daha iyidir.
Word'ü Vektöre Dönüştür bileşenini işlem hattınıza ekleyin.
Bileşenin girişi olarak, bir veya daha fazla metin sütunu içeren bir veri kümesi sağlayın.
Hedef sütun için, işlenmek üzere metin içeren tek bir sütun seçin.
Bu bileşen metinden bir sözcük dağarcığı oluşturduğundan, sütunların içeriği farklılık gösterir ve bu da farklı sözcük dağarcığı içeriğine yol açar. Bu nedenle bileşen yalnızca bir hedef sütunu kabul eder.
Word2Vec stratejisi için GloVe önceden eğitilmiş İngilizce Modeli, Gensim Word2Vec ve Gensim FastText arasından seçim yapın.
Word2Vec stratejisi Gensim Word2Vec veya Gensim FastText ise:
Word2Vec Eğitim Algoritması için Skip_gram ve CBOW arasından seçim yapın. Fark, özgün belgede (PDF) ortaya çıkmıştır.
Varsayılan yöntem Skip_gram.
Sözcük ekleme uzunluğu için sözcük vektörlerinin boyutsallığını belirtin. Bu ayar, Gensim'deki parametreye
size
karşılık gelir.Varsayılan ekleme boyutu 100'dür.
Bağlam penceresi boyutu için tahmin edilen sözcükle geçerli sözcük arasındaki maksimum uzaklığı belirtin. Bu ayar, Gensim'deki parametreye
window
karşılık gelir.Varsayılan pencere boyutu 5'tir.
Dönem sayısı için, corpus üzerindeki dönem sayısını (yinelemeler) belirtin. Gensim'deki parametresine
iter
karşılık gelir.Varsayılan dönem numarası 5'tir.
Maksimum sözcük dağarcığı boyutu için, oluşturulan sözlükteki sözcüklerin maksimum sayısını belirtin.
En büyük boyuttan daha fazla benzersiz sözcük varsa, seyrek olanları budayın.
Varsayılan sözlük boyutu 10.000'dir.
En düşük sözcük sayısı için en düşük sözcük sayısını girin. Bileşen, bu değerden daha düşük bir sıklığı olan tüm sözcükleri yoksayar.
Varsayılan değer 5'tir.
İşlem hattını gönderin.
Örnekler
Bileşenin bir çıkışı vardır:
- Eklemeler içeren sözlük: Her sözcüğün eklemesiyle birlikte oluşturulan sözlüğü içerir. Bir boyut bir sütunu kaplar.
Aşağıdaki örnek, Word'ü Vektöre Dönüştür bileşeninin nasıl çalıştığını gösterir. Önceden işlenmiş Wikipedia SP 500 Veri Kümesine varsayılan ayarlarla Word'ü Vektöre Dönüştür'ü kullanır.
Kaynak veri kümesi
Veri kümesi, Wikipedia'dan getirilen tam metinle birlikte bir kategori sütunu içerir. Aşağıdaki tabloda birkaç temsili örnek gösterilmektedir.
Metin |
---|
nasdaq 100 component s p 500 component foundation kurucu konum şehir apple campus 1 sonsuz döngü sokak sonsuz döngü cupertino california cupertino california konum ülke amerika birleşik devletleri... |
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 bileşen endüstrisi bilgisayar yazılımı vakfı br kurucu charles geschke br john warnock location adobe systems... |
s p 500 s p 500 bileşen sanayi otomotiv sanayi otomotiv öncülü genel motorlar corporation 1908 2009 ardılı... |
s p 500 s p 500 komponent sanayi holding şirket holding vakıf kurucu konum şehir fairfield connecticut fairfield connecticut konum ülke abd alanı... |
br s p 500 s p 500 bileşen vakfı 1903 kurucu william s harley br arthur davidson harley davidson kurucu arthur davidson br walter davidson br william a davidson location... |
Eklemelerle çıkış sözlüğü
Aşağıdaki tabloda, giriş olarak Wikipedia SP 500 veri kümesini alarak bu bileşenin çıktısı yer alır. En soldaki sütun kelime dağarcığını gösterir. Ekleme vektöru, aynı satırdaki kalan sütunların değerleriyle temsil edilir.
Lügatçe | Dim 0 ekleme | Dim 1 ekleme | Katıştırma dim 2 | Katıştırma dim 3 | Katıştırma dim 4 | Katıştırma dim 5 | ... | Dim 99 ekleme |
---|---|---|---|---|---|---|---|---|
Nasdaq | -0.375865 | 0.609234 | 0.812797 | -0.002236 | 0.319071 | -0.591986 | ... | 0.364276 |
component | 0.081302 | 0.40001 | 0.121803 | 0.108181 | 0.043651 | -0.091452 | ... | 0.636587 |
s | -0.34355 | -0.037092 | -0.012167 | 0.151542 | 0.601019 | 0.084501 | ... | 0.149419 |
ös | -0.133407 | 0.073244 | 0.170396 | 0.326706 | 0.213463 | -0.700355 | ... | 0.530901 |
vakıf | -0.166819 | 0.10883 | -0.07933 | -0.073753 | 0.262137 | 0.045725 | ... | 0.27487 |
Kurucusu | -0.297408 | 0.493067 | 0.316709 | -0.031651 | 0.455416 | -0.284208 | ... | 0.22798 |
konum | -0.375213 | 0.461229 | 0.310698 | 0.213465 | 0.200092 | 0.314288 | ... | 0.14228 |
şehir | -0.460828 | 0.505516 | -0.074294 | -0.00639 | 0.116545 | 0.494368 | ... | -0.2403 |
elma | 0.05779 | 0.672657 | 0.597267 | -0.898889 | 0.099901 | 0.11833 | ... | 0.4636 |
yerleşke | -0.281835 | 0.29312 | 0.106966 | -0.031385 | 0.100777 | -0.061452 | ... | 0.05978 |
sonsuz | -0.263074 | 0.245753 | 0.07058 | -0.164666 | 0.162857 | -0.027345 | ... | -0.0525 |
loop | -0.391421 | 0.52366 | 0.141503 | -0.105423 | 0.084503 | -0.018424 | ... | -0.0521 |
Bu örnekte, Word2Vec için varsayılan Gensim Word2Vec stratejisini kullandık ve Eğitim Algoritması Skip-gram oldu. Ekleme sözcüğünün uzunluğu 100'dür, bu nedenle 100 ekleme sütunumuz vardır.
Teknik notlar
Bu bölüm, sık sorulan soruların ipuçlarını ve yanıtlarını içerir.
Çevrimiçi eğitim ve önceden eğitilmiş model arasındaki fark:
Bu Word'ü Vektöre Dönüştür bileşeninde üç farklı strateji sağladık: iki çevrimiçi eğitim modeli ve bir önceden eğitilmiş model. Çevrimiçi eğitim modelleri giriş veri kümenizi eğitim verileri olarak kullanır ve eğitim sırasında sözlük ve sözcük vektörleri oluşturur. Önceden eğitilen model wikipedia veya X metin gibi çok daha büyük bir metin grubu tarafından eğitilmiş durumdadır. Önceden eğitilen model aslında bir sözcük/ekleme çiftleri koleksiyonudur.
GloVe önceden eğitilmiş modeli, giriş veri kümesinden bir kelime dağarcığını özetler ve önceden eğitilen modelden her sözcük için bir ekleme vektöru oluşturur. Çevrimiçi eğitim olmadan, önceden eğitilmiş bir modelin kullanılması eğitim zamanından tasarruf edebilir. Özellikle giriş veri kümesi boyutu görece küçük olduğunda daha iyi performansa sahiptir.
Ekleme boyutu:
Genel olarak, sözcük eklemenin uzunluğu birkaç yüz olarak ayarlanır. Örneğin, 100, 200, 300. Küçük bir ekleme boyutu, sözcük ekleme çakışmalarına neden olabilecek küçük bir vektör alanı anlamına gelir.
Sözcük eklemelerin uzunluğu, önceden eğitilen modeller için sabittir. Bu örnekte glove-wiki-gigaword-100 ekleme boyutu 100'dür.
Sonraki adımlar
Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.
Tasarımcı bileşenlerine özgü hataların listesi için bkz . Machine Learning hata kodları.