Çift Sınıflı Lojistik Regresyon

Makale
05/06/2019

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

makine öğrenimi projelerini ML Studio (klasik) konumundan Azure Machine Learning taşımaya yönelik bilgilerebakın.
Azure Machine Learninghakkında daha fazla bilgi edinin.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

İki sınıf lojistik regresyon modeli oluşturur

kategori: Model/sınıflandırmayı Machine Learning/başlat

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Modüle genel bakış

bu makalede, iki (ve yalnızca iki) sonucu tahmin etmek için kullanılabilecek bir lojistik regresyon modeli oluşturmak için Machine Learning Studio 'da (klasik) iki sınıf lojistik regresyon modülünün nasıl kullanılacağı açıklanır.

Lojistik regresyon, birçok tür sorunu modellemeye yönelik kullanılan iyi bilinen istatistiksel bir tekniktir. Bu algoritma, denetimli bir öğrenme yöntemidir; Bu nedenle, modeli eğitetmek için sonuçları zaten içeren bir veri kümesi sağlamanız gerekir.

Lojistik regresyon hakkında daha fazla bilgi

Lojistik regresyon, bir sonucun olasılığını tahmin etmek için kullanılan istatistiklerde iyi bilinen bir yöntemdir ve özellikle sınıflandırma görevlerinde popüler olur. Algoritma bir lojistik işlevine veri ekleyerek bir olayın oluşma olasılığını tahmin eder. Bu uygulamayla ilgili ayrıntılar için Teknik notlar bölümüne bakın.

Bu modülde sınıflandırma algoritması, dichotom veya ikili değişkenler için iyileştirilmiştir. birden çok sonucu sınıflandırmanız gerekiyorsa, çoklu Lass lojistik regresyon modülünü kullanın.

Two-Class Lojistik gerileme yapılandırma

Bu modeli eğitebilmeniz için etiket veya sınıf sütunu içeren bir veri kümesi sağlamanız gerekir. Bu modül iki sınıf sorunlara yönelik olduğu için, etiket veya sınıf sütunu tam olarak iki değer içermelidir.

Örneğin, etiket sütunu, olası "Yes" veya "No" değerleriyle [Voted] olabilir. Ya da, olası "yüksek" veya "düşük" değerleriyle [kredi riski] olabilir.

Iki sınıf lojistik regresyon modülünü Studio 'daki denemenize ekleyin (klasik).
Model oluşturma modunu ayarlayarak modelin eğitilme şeklini belirleyin.
- Tek parametre: modeli nasıl yapılandırmak istediğinizi biliyorsanız bağımsız değişken olarak belirli bir değer kümesi sağlayabilirsiniz.
- Parametre aralığı: en iyi parametrelerden emin değilseniz, en iyi yapılandırmayı bulmak için birden çok değer belirterek ve model hiper parametrelerini ayarla modülünü kullanarak en iyi parametreleri bulabilirsiniz. Bu, ayarların birden çok kombinasyonu üzerinde dolaşır ve en iyi modeli üreten değerlerin birleşimini belirler.
İyileştirme toleransıiçin modeli iyileştirirken kullanılacak bir eşik değeri belirtin. Yinelemeler arasındaki geliştirme belirtilen eşiğin altına düşerse, algoritma bir çözüme yakınsamış olarak kabul edilir ve eğitim duraklar.
L1 düzenleme Weight ve L2 düzenleme ağırlığıIçin, L1 ve L2 düzenleme parametreleri için kullanılacak bir değer yazın. Her ikisi için sıfır olmayan bir değer önerilir.

Düzenleme , çok büyük katsayı değerleriyle penalizing modellerle fazla sığdırmayı engellemek için bir yöntemdir. Düzenleme, katsayı değeri ile ilişkili ceza değerini, varsayım hatası ile ilişkilendirilen ceza ekleyerek işe yarar. Bu nedenle, çok büyük katsayı değerleri olan doğru bir model daha fazla sızlaştırılacağından, daha fazla koruyucu değere sahip daha az doğru bir model daha az olabilir.

L1 ve L2 düzenleme farklı etkileri ve kullanımları vardır.
- L1, yüksek boyutlu verilerle çalışırken yararlı olabilecek seyrek modellere uygulanabilir.
- Buna karşılık L2 düzenleme, seyrek olmayan veriler için tercih edilir.
Bu algoritma, L1 ve L2 düzenleme değerlerinin doğrusal bir birleşimini destekler: Yani x = L1 , ve y = L2ax + by = c ise düzenleme koşullarının doğrusal yayılımını tanımlar.

Not

L1 ve L2 düzenleme hakkında daha fazla bilgi edinmek istiyor musunuz? Aşağıdaki makalede, L1 ve L2 düzenleme 'in nasıl farklı olduğu ve model sığdırmayı nasıl etkilediği hakkında bir tartışma sunulmaktadır: lojistik regresyon ve sinir ağ modelleri için kod örnekleri, Machine Learning Için L1 ve L2 düzenleme

L1 ve L2 koşullarına ait farklı doğrusal birleşimler lojistik regresyon modelleriyle kaldırılmıştır: Örneğin, elastik net düzenleme. Modelinizde etkin olan doğrusal bir bileşim tanımlamak için bu kombinasyonlara başvurulacağını öneririz.
L-BFGS için bellek boyutu Için, l-BFGS iyileştirmesi için kullanılacak bellek miktarını belirtin.

L-BFGS, "sınırlı bellek Broyıdan-Fletu-Goldfarb-shanno" için temsil eder. Bu, parametre tahmini için popüler bir iyileştirme algoritmasıdır. Bu parametre, sonraki adım hesaplamasında depolanacak geçmiş konumların ve degradelerin sayısını belirtir.

Bu iyileştirme parametresi, sonraki adımı ve yönü hesaplamak için kullanılan bellek miktarını sınırlandırır. Daha az bellek belirttiğinizde, eğitim daha hızlıdır ancak daha az doğru olur.
Rastgele numara kaynağıiçin bir tamsayı değeri yazın. Sonuçların aynı deneyin birden fazla çalıştırması üzerinden tekrarlanabilir olmasını istiyorsanız, çekirdek değeri tanımlamak önemlidir.
Her kategorik sütunda ek bir "Bilinmeyen" düzeyi oluşturmak için Bilinmeyen kategorik düzeylerine Izin ver seçeneğini belirleyin. Bunu yaparsanız, eğitim veri kümesinde kullanılamayan test veri kümesindeki tüm değerler (düzeyler) bu "bilinmiyor" düzeyine eşlenir.
Denemeye etiketli bir veri kümesi ekleyin ve eğitim modüllerdenbirini bağlayın.
- Tek parametreyeoluşturma ve ayarlama modunu ayarlarsanız, model eğitme modülünü kullanın.
- Parametre aralığınaoluşturma sağlayan bir mod ayarlarsanız, model hiper parametrelerini ayarla modülünü kullanın.
Not

Modeli Eğiteetmekiçin bir parametre aralığı geçirirseniz, parametre aralığı listesindeki yalnızca ilk değeri kullanır.

Tek bir parametre değerleri kümesini ayarlama modeli hiper parametreleri modülüne geçirirseniz, her parametre için bir dizi ayar beklerken, değerleri yoksayar ve öğrenici için varsayılan değerleri kullanın.

Parametre aralığı seçeneğini belirleyin ve herhangi bir parametre için tek bir değer girerseniz, belirtilen tek değer, diğer parametrelerin bir değer aralığı üzerinde değişse bile, tarama boyunca kullanılacaktır.
Denemeyi çalıştırın.

Sonuçlar

Eğitim tamamlandıktan sonra:

Modellerden öğrenilen Özellik ağırlıklarla birlikte modelin parametrelerinin özetini görmek için, model eğitme veya model hiper parametreleri ayarlamaçıktısına sağ tıklayın ve Görselleştir' i seçin.
Yeni verileri tahmin etmek için eğitilen modeli ve yeni verileri puan modeli modülüne giriş olarak kullanın.
Etiketli bir veri kümesine karşı çapraz doğrulama gerçekleştirmek için verileri ve eğitilen modeli çapraz doğrulama modelinebağlayın.

Örnekler

Bu öğrenme algoritmasının nasıl kullanıldığına ilişkin örnekler için Azure yapay zeka Galerisibakın:

Ağ üzerinden izinsiz kullanım algılama: bir durumun bir yetkisiz erişimi temsil edip etmediğini saptamak için ikili Lojistik gerileme kullanır.
Ikili sınıflandırıcının çapraz doğrulaması: model değerlendirmesi de dahil olmak üzere tipik bir deneysel iş akışında Lojistik gerileme kullanımını gösterir.

Teknik notlar

Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.

Kullanım ipuçları

Lojistik regresyon, sayısal değişkenler gerektirir. bu nedenle, kategorik sütunları değişken olarak kullandığınızda Machine Learning değerleri dahili olarak bir gösterge dizisine dönüştürür.

Tarihler ve saatler için sayısal bir gösterim kullanılır. (tarih saat değerleri hakkında daha fazla bilgi için bkz. tarihsaat yapısı (.NET Framework)-açıklamalar.) Tarihleri ve saatleri farklı şekilde işlemek istiyorsanız, türetilmiş bir sütun oluşturmanızı öneririz.

Uygulama ayrıntıları

Lojistik regresyon, verilerin lojistik dağılımı olduğunu varsayar; burada bir örnek 1. sınıfa ait olduğu olasılık ise formüldür:

p(x;β0,…, βD-1)

Konum:

x , örneğin tüm özelliklerinin değerlerini içeren D boyutlu bir vektörüdür.
p lojistik dağıtım işlevidir.
β{0},..., β {D-1} , lojistik dağıtımının bilinmeyen parametreleri.

Algoritma, girdileri verilen parametrelerin günlük olasılığını en üst düzeye çıkararak için β{0},..., β {D-1} en uygun değerleri bulmaya çalışır. En yüksek değer, parametre tahmini için popüler bir yöntem kullanılarak yapılır, sınırlı bellek BFGSolarak adlandırılır.

Araştır

Bu algoritmanın uygulanması hakkında daha fazla bilgi için bkz. L-1 Regularized Log-Linear modelleriyle Ilgili ölçeklenebilir eğitim, Andrew ve Gao tarafından.

Modül parametreleri

Name	Aralık	Tür	Varsayılan	Description
İyileştirme toleransı	>= Double. Upsilon	Float	0,0000001	L-BFGS İdealleştirici için bir tolerans değeri belirtin
L1 düzenleme ağırlığı	>= 0,0	Float	1.0	L1 düzenleme ağırlığını belirtin
L2 düzenleme ağırlığı	>= 0,0	Float	1.0	L2 düzenleme ağırlığını belirtin
L-BFGS için bellek boyutu	>değer	Tamsayı	20	L-BFGS İdealleştirici için kullanılacak bellek miktarını (MB cinsinden) belirtin
Rastgele sayı çekirdek	Herhangi biri	Tamsayı		Model tarafından kullanılan rastgele sayı oluşturucusunun temel aldığı bir değer yazın. Varsayılan değer olarak boş bırakın.
Bilinmeyen kategorik düzeylerine izin ver	Herhangi biri	Boole	Doğru	Her kategorik sütun için ek bir düzeyin oluşturulup oluşturulmayacağını belirtin. Test veri kümesindeki eğitim veri kümesinde kullanılamayan tüm düzeyler bu ek düzeyle eşleştirilir.

Çıktı

Ad	Tür	Description
Eğitilen model	ILearner arabirimi	Eğitimli olmayan bir sınıflandırma modeli

Ayrıca bkz.

Sınıflandırma

Çok Sınıflı Lojistik Regresyon

A-Z modül listesi

Aracılığıyla paylaş