Çok Sınıflı Lojistik Regresyon
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
- Daha fazla bilgi Azure Machine Learning.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Çok sınıflı lojistik regresyon sınıflandırma modeli oluşturur
Kategori: Machine Learning / Modeli Başlatma / Sınıflandırma
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Modüle genel bakış
Bu makalede, Machine Learning Studio'da (klasik) Çok Sınıflı Lojistik Regresyon modülünü kullanarak birden çok değeri tahmin etmek için kullanılan bir lojistik regresyon modeli oluşturma açıklanmıştır.
Lojistik regresyon kullanan sınıflandırma denetimli bir öğrenme yöntemidir ve bu nedenle etiketlenmiş bir veri kümesi gerektirir. Modeli ve etiketlenmiş veri kümelerini Modeli Eğit veya Modeli Ayarla Hiperparametreleri gibi bir modüle giriş olarak sağlayarak modeli eğitebilirsiniz. Eğitilen model daha sonra yeni giriş örneklerinin değerlerini tahmin etmek için kullanılabilir.
Machine Learning Studio (klasik), ikili veya klasik değişkenlerin sınıflandırılması için uygun olan İki Sınıflı Lojistik Regresyon modülü de sağlar.
Çok sınıflı lojistik regresyon hakkında daha fazla bilgi
Lojistik regresyon, istatistikte bilinen ve bir sonucun olasılığını tahmin etmek için kullanılan ve özellikle sınıflandırma görevleri için popüler olan bir yöntemdir. Algoritma, verileri bir lojistik işleve sığdırarak olayın oluşma olasılığını tahmin ediyor. Bu uygulama hakkında ayrıntılı bilgi için Teknik Notlar bölümüne bakın.
Çok sınıflı lojistik regresyonda sınıflandırıcı, birden çok sonucu tahmin etmek için kullanılabilir.
Çok Sınıflı Lojistik Regresyon yapılandırma
Çok Sınıflı Lojistik Regresyon modülünü denemeye ekleyin.
Eğitimci modu oluştur seçeneğini ayarerek modelin nasıl eğitilsin?
Tek Parametre: Modeli nasıl yapılandırmak istediğinizi biliyorsanız ve bağımsız değişken olarak belirli bir değer kümesi sağlamak için bu seçeneği kullanın.
Parametre Aralığı: En iyi parametrelerden emin değilseniz ve parametre tarama kullanmak istemiyorsanız bu seçeneği kullanın.
İyileştirme toleransı, iyileştirici yakınsama için eşik değerini belirtin. Yinelemeler arasındaki geliştirme eşikten küçükse algoritma durur ve geçerli modeli döndürür.
L1 normalleştirme ağırlığı, L2 normalleştirme ağırlığı: L1 ve L2 normalleştirme parametreleri için kullanmak üzere bir değer yazın. Her ikisi için de sıfır olmayan bir değer önerilir.
Düzenlileştirme, aşırı katsayısal değerlere sahip modellerin cezalarını kaldırarak fazla uygunlaştırmayı önlemeye yönelik bir yöntemdir. Düzenlileştirme, hipotez hatasına katsayısal değerlerle ilişkili cezayı ekleyerek çalışır. Aşırı katsayısal değerlere sahip doğru bir model daha fazla cezaya, daha az doğru değere sahip bir model ise daha az cezalı olur.
L1 ve L2 düzenlileştirmenin farklı etkileri ve kullanımları vardır. L1, seyrek modellere uygulanabilir ve bu da yüksek boyutlu verilerle çalışırken kullanışlıdır. Buna karşılık L2 düzenlileştirmesi seyrek veriler için tercih edilir. Bu algoritma, L1 ve L2 normalleştirme değerlerinin doğrusal bir birleşimini destekler: diğer bir ifade, if
x = L1
y = L2
ve ise,ax + by = c
normalleştirme terimlerinin doğrusal yayılmasını tanımlar.Elastik net düzenlileştirme gibi lojistik regresyon modellerinde L1 ve L2 terimlerinin farklı doğrusal birleşimleri geliştirildi.
L-BFGS için bellek boyutu: L-BFGS iyileştirmesi için kullanılan bellek miktarını belirtin. Bu parametre, bir sonraki adımın hesaplaması için depolan geçmiş konum ve gradyan sayısını gösterir.
L-BFGS sınırlı bellek Broyden-Rag-Goldfarb-Zhno'nun açılımıdır ve parametre tahmini için popüler olan bir iyileştirme algoritmasıdır. Bu iyileştirme parametresi, bir sonraki adımı ve yönü hesaplamak için kullanılan bellek miktarını sınırlar. Daha az bellek belirttiğinizde eğitim daha hızlı ancak daha az doğru olur.
Rastgele sayı çekirdeği: Sonuçların çalıştırmalar üzerinde yinelenebilir olması için algoritma için çekirdek olarak kullanmak üzere bir tamsayı değeri yazın. Aksi takdirde, çekirdek olarak bir sistem saati değeri kullanılır ve bu da aynı denemenin çalıştırmalarında biraz farklı sonuçlar üretebilir.
Bilinmeyen kategorik düzeylere izin ver: Her kategorik sütunda ek bir "bilinmeyen" düzey oluşturmak için bu seçeneği belirleyin. Eğitim veri kümesinde mevcut olan test veri kümesinde yer alan değerler (düzeyler) bu "bilinmeyen" düzeye eşlenmiş.
Bağlan veri kümesi ve eğitim modüllerinden birini kullanın:
Eğitimci modu oluştur'a TekParametre olarak ayarlanırsa Modeli Eğit modülünü kullanın.
Eğitmen modu oluştur ayarını Parametre Aralığı olarak ayarlarsanız Model Ayarlama Hiper parametreleri modülünü kullanın. Bu seçenekle birden çok değer belirtebilirsiniz. Eğitmen, en iyi modeli üreten değerlerin birleşimini belirlemek için ayarların birden çok bileşimini tekrarlar.
Not
Modeli Eğit'e bir parametre aralığı iletirsiniz, parametre aralığı listesinde yalnızca ilk değeri kullanır.
Model Ayarlama Hiperparametreleri modülüne tek bir parametre değeri kümesi iletirsiniz; her parametre için bir dizi ayar bekliyorsa, değerleri yoksayır ve öğrenciler için varsayılan değerleri kullanır.
Parametre Aralığı seçeneğini belirtir ve herhangi bir parametre için tek bir değer girerseniz, diğer parametreler bir değer aralığında değişse bile, belirttiğiniz tek değer tarama boyunca kullanılır.
Denemeyi çalıştırın.
Sonuçlar
Eğitim tamamlandıktan sonra:
- Modelin parametrelerinin özetini eğitimden öğrenilen özellik ağırlıkları ile birlikte görmek için Modeli Eğit veya Modeli Ayarla Hiper Parametreleri çıkışına sağ tıklayın ve Görselleştir'i seçin.
Örnekler
Bu öğrenme algoritmasının nasıl kullanıldıklarının örnekleri için bkz . Azure Yapay Zeka Galerisi:
Iris kümeleme: Çok sınıflı lojistik regresyon sonuçlarını K-means kümeleme ile karşılar.
Ağ izinsiz giriş algılaması: Bir olay bir izinsiz giriş olduğunu belirlemek için ikili lojistik regresyon kullanır.
İkili Sınıflandırıcılar için Çapraz Doğrulama: Model değerlendirmesi de dahil olmak üzere tipik bir deneysel iş akışında lojistik regresyon kullanımını gösterir.
Teknik notlar
Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.
İlgili araştırma
L1 ve L2 düzenlileştirmesi hakkında daha fazla bilgi edinmek ister misiniz? Aşağıdaki makalede, lojistik regresyon ve nöral ağ modelleri için kod örnekleriyle birlikte L1 ve L2 düzenlileştirmenin nasıl farklı olduğu ve model uyumu nasıl etkilediği hakkında bir açıklama ve açıklama sağlar.
Bu algoritmanın uygulanması hakkında daha fazla bilgi için bkz:
- Andrew ve Gao tarafından yapılan, L-1 Log-Linear Modellerinin Ölçeklenebilir Eğitimi.
Uygulama ayrıntıları
Lojistik regresyon sayısal değişkenler gerektirir. Bu nedenle kategorik sütunları değişken olarak kullanmaya Machine Learning değerleri dahili olarak bir gösterge dizisine dönüştürür.
Tarihler ve saatlerde sayısal bir gösterim kullanılır. Tarih saat değerleri hakkında daha fazla bilgi için bkz. DateTime Yapısı .NET Framework. Tarihleri ve saatleri farklı işlemek için türetilmiş bir sütun oluşturmanızı öneririz.
Standart lojistik regresyon, ikiomiktir ve iki çıkış sınıfı varsayıyor. Çok sınıflı veya çoknomlu lojistik regresyon üç veya daha fazla çıkış sınıfı varsayıyor.
Binomik lojistik regresyon, bir örneğin 1. sınıfa ait olma olasılığının formül olduğu bir lojistik veri dağıtımını varsayıyor:
p(x;β0,…, βD-1)
Konum:
x, örneğin tüm özelliklerinin değerlerini içeren D boyutlu bir vektörü temsil eder.
p, lojistik dağıtım işlevidir.
β{0},..., β {D-1}
, lojistik dağıtımın bilinmeyen parametreleridir.
Algoritma, girişler verilen parametrelerin günlük β{0},..., β {D-1}
olasılığını en üst düzeye çıkararak için en uygun değerleri bulmaya çalışır. En üst düzeye çıkarma, parametre tahmini için sınırlı bellek BFGS adlı popüler bir yöntem kullanılarak gerçekleştirilir.
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
İyileştirme toleransı | >= Double. Upsilon | Float | 0,0000001 | L-BFGS İdealleştirici için bir tolerans değeri belirtin |
L1 düzenleme ağırlığı | >= 0,0 | Float | 1.0 | L1 düzenleme ağırlığını belirtin. Aşırı sığdırmayı önlemek için sıfır olmayan bir değer kullanın. |
L2 düzenleme ağırlığı | >= 0,0 | Float | 1.0 | L2 düzenleme ağırlığını belirtin. Aşırı sığdırmayı önlemek için sıfır olmayan bir değer kullanın. |
L-BFGS için bellek boyutu | >değer | Tamsayı | 20 | L-BFGS İdealleştirici için kullanılacak bellek miktarını (MB cinsinden) belirtin. Daha az bellek kullanıldığında, eğitim daha hızlıdır, ancak daha az doğru olur. |
Rastgele sayı çekirdek | Herhangi biri | Tamsayı | Model tarafından kullanılan rastgele sayı oluşturucusunun temel aldığı bir değer yazın. Varsayılan değer olarak boş bırakın. | |
Bilinmeyen kategorik düzeylerine izin ver | Herhangi biri | Boole | Doğru | Her kategorik sütun için ek bir düzeyin oluşturulup oluşturulmayacağını belirtin. Test veri kümesindeki eğitim veri kümesinde kullanılamayan tüm düzeyler bu ek düzeyle eşleştirilir. |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Eğitilen model | ILearner arabirimi | Eğitimli olmayan bir sınıflandırma modeli |
Ayrıca bkz.
Sınıflandırma
Çift Sınıflı Lojistik Regresyon
A-Z modül listesi