Otomatik ML ile fazla uygunluk ve dengesiz verileri önleme

Makine öğrenmesi modelleri oluştururken aşırı uygunluk ve dengesiz veriler sık karşılaşılan sorunlardır. Varsayılan olarak, Azure Machine Learning'deki Otomatik ML özelliği bu riskleri belirlemenize yardımcı olacak grafikler ve ölçümler sağlar. Bu makalede, yaygın sorunların azaltılmasına yardımcı olmak için Otomatik ML'de en iyi yöntemleri nasıl uygulayabileceğiniz açıklanır.

Fazla uygunluğu belirleme

Makine öğrenmesinde fazla uygunluk, model eğitim verilerine çok uygun olduğunda gerçekleşir. Sonuç olarak model, görünmeyen test verileri üzerinde doğru tahminlerde bulunamaz. Model, eğitim verilerindeki belirli desenleri ve gürültüyü ezberlediğinden gerçek veriler hakkında tahminde bulunabilecek kadar esnek değildir.

Aşağıdaki eğitilmiş modelleri ve bunların ilgili tren ve test doğruluklarını göz önünde bulundurun:

Model Eğitim doğruluğu Test doğruluğu
A %99,9 %95
K 87% 87%
C %99,9 %45
  • Model A: Bu modelin testi, model eğitimine göre biraz daha az doğruluk sağlar. Görünmeyen verilerde test doğruluğunun eğitim doğruluğundan düşük olması durumunda modelin fazla uygun olduğu yaygın bir yanılgı vardır. Ancak test doğruluğu her zaman eğitim doğruluğundan daha az olmalıdır. Fazla uygunluk ile uygun şekilde sığdırma verileri arasındaki fark, doğruluğun ne kadar az olduğunu ölçmeye kadar uzanır.

  • Model A ve B modeli: A modeli daha yüksek test doğruluğuna sahip olduğundan daha iyi bir modeldir. Test doğruluğu %95'te biraz daha düşük olsa da fazla uygunluk olduğunu gösteren önemli bir fark değildir. Eğitim ve test doğrulukları benzer olduğundan B modeli tercih değildir.

  • Model C: Bu model net bir fazla uygunluk durumunu temsil eder. Eğitim doğruluğu yüksek ve test doğruluğu düşüktür. Bu ayrım özneldir, ancak sorununuzun ve verilerinizin bilgisi ve hatanın kabul edilebilir büyüklükleri nelerdir?

Fazla uygunluk önleme

En kötü durumlarda, aşırı sığdırılmış bir model, eğitim sırasında görünen özellik değeri birleşimlerinin her zaman hedef için tam olarak aynı çıktıya neden olduğunu varsayar. Verilerinizin fazla uygun olmasını önlemek için makine öğrenmesi için en iyi yöntemleri izlemeniz öneridir. , model uygulamanızda yapılandırabileceğiniz çeşitli yöntemlerdir. Otomatik ML, fazla uygunluğu önlemeye yardımcı olmak için varsayılan olarak diğer seçenekleri de sağlar.

Aşağıdaki tabloda yaygın en iyi yöntemler özetlemektedir:

En iyi uygulama Uygulama Otomatikleştirilmiş ML
Daha fazla eğitim verisi kullanın ve istatistiksel yanlılıkları ortadan kaldırın X
Hedef sızıntısını önleme X
Daha az özellik ekleme X
Düzenlileştirmeyi ve hiper parametre iyileştirmeyi destekleme X
Model karmaşıklığı sınırlamalarını uygulama X
Çapraz doğrulamayı kullanma X

Fazla uygunluğu önlemek için en iyi yöntemleri uygulama

Aşağıdaki bölümlerde, fazla uygunluğu önlemek için makine öğrenmesi modeli uygulamanızda kullanabileceğiniz en iyi yöntemler açıklanmaktadır.

Daha fazla veri kullanma

Daha fazla veri kullanmak, fazla uygunluğu önlemenin en basit ve en iyi yoludur ve bu yaklaşım genellikle doğruluğu artırır. Daha fazla veri kullandığınızda modelin tam desenleri ezberlemesi zorlaşır. Model, daha fazla koşula uyum sağlamak için daha esnek çözümlere ulaşmak zorunda kalır. Eğitim verilerinizin canlı tahmin verilerinde mevcut olmayan yalıtılmış desenler içermediğinden emin olmak için istatistiksel yanlılıkları tanımak da önemlidir. Canlı test verileriyle karşılaştırıldığında fazla uygunluk mevcut olabileceği için bu senaryoyu çözmek zor olabilir.

Hedef sızıntısını önleme

Hedef sızıntısı da benzer bir sorundur. Tren ve test kümeleri arasında fazla uygunluk göremeyebilirsiniz, ancak sızıntı sorunu tahmin zamanında görünür. Hedef sızıntı, modeliniz normalde tahmin zamanında sahip olmaması gereken verilere erişerek eğitim sırasında "hile yaptığı" zaman ortaya çıkar. Modelin Pazartesi günü cuma günü emtia fiyatını tahmin etmesine örnek olarak verilmiştir. Özellikleriniz yanlışlıkla Perşembe günlerine ait verileri içerirse modelin tahmin zamanında erişemediği için geleceğe dönük olarak göremediğinden verilere erişimi vardır. Hedef sızıntısı kaçırılması kolay bir hatadır. Sorununuz için anormal derecede yüksek doğruluk oranına sahip olduğunuz durumlarda genellikle görünür. Hisse senedi fiyatını tahmin etmeye çalışırken modeli %95 doğrulukla eğittiyseniz, özelliklerinizin bir yerinde muhtemelen hedef sızıntısı olabilir.

Daha az özellik ekleme

Özelliklerin kaldırılması, modelin belirli desenleri ezberlemek için çok fazla alana sahip olmasını önleyerek fazla uygunluk konusunda da yardımcı olabilir ve bu da modelin daha esnek olmasına neden olabilir. Nicel olarak ölçmek zor olabilir. Özellikleri kaldırabilir ve aynı doğruluğu koruyabilirseniz modeliniz daha esnek olabilir ve fazla uygunluk riskini azaltabilir.

Fazla uygunluğu önlemek için Otomatik ML özelliklerini gözden geçirin

Aşağıdaki bölümlerde, fazla uygunluğu önlemeye yardımcı olmak için Otomatik ML'de varsayılan olarak sağlanan en iyi yöntemler açıklanmaktadır.

Normalleştirme ve hiper parametre ayarlama desteği

Düzenlileştirme , karmaşık ve fazla sığdırılmış modelleri cezaya dönüştürmeye yönelik bir maliyet işlevini en aza indirme işlemidir. Farklı türlerde düzenlileştirme işlevleri vardır. Genel olarak, tüm işlevler model katsayısı boyutunu, varyansı ve karmaşıklığı cezaya dönüştürür. Otomatik ML, aşırı uygunluk denetimi sağlayan farklı model hiper parametre ayarlarıyla farklı kombinasyonlarda L1 (Kement), L2 (Ridge) ve ElasticNet (L1 ve L2) kullanır. Otomatik ML, bir modelin ne kadar düzenlendiğini belirler ve en iyi sonucu seçer.

Model karmaşıklığı sınırlamalarını uygulama

Otomatik ML ayrıca fazla uygunluğu önlemek için açık model karmaşıklığı sınırlamaları uygular. Çoğu durumda, bu uygulama özellikle karar ağacı veya orman algoritmalarına yöneliktir. Tek tek ağaç maksimum derinliği sınırlıdır ve orman veya topluluk tekniklerinde kullanılan toplam ağaç sayısı sınırlıdır.

Çapraz doğrulamayı kullanma

Çapraz doğrulama (CV), tam eğitim verilerinizin birçok alt kümesini alma ve her alt kümede bir model eğitma işlemidir. Burada fikir, bir modelin "şanslı" olabileceği ve bir alt kümede büyük doğruluk sağlayabileceğinizi, ancak birçok alt kümeyi kullanarak modelin her seferinde yüksek doğruluk elde edemeyebilir olmasıdır. CV'yi yaparken bir doğrulama bekleme veri kümesi sağlar, CV katlamalarınızı (alt küme sayısı) belirtirsiniz ve Otomatik ML, doğrulama kümenizdeki hatayı en aza indirmek için modelinizi eğitip hiper parametreleri ayarlar. Bir CV katlama fazla uygun olabilir, ancak bunların birçoğu kullanıldığında işlem, son modelinizin fazla sığdırılma olasılığını azaltır. Sonuç olarak CV alt kümelerindeki her n model için bir kez eğittiğiniz için CV daha uzun eğitim süreleri ve daha yüksek maliyetle sonuçlanır.

Not

Çapraz doğrulama varsayılan olarak etkin değildir. Bu özellik Otomatik makine öğrenmesi ayarlarında yapılandırılmalıdır. Ancak çapraz doğrulama yapılandırıldıktan ve bir doğrulama veri kümesi sağlandıktan sonra işlem sizin için otomatikleştirilmiştir.

Dengesiz verilerle modelleri tanımlama

Dengesiz veriler genellikle makine öğrenmesi sınıflandırma senaryolarına yönelik verilerde bulunur ve her sınıftaki orantısız gözlem oranı içeren verileri ifade eder. Bu dengesizlik, giriş verilerinin bir sınıfa karşı yanlılığı olduğundan modelin doğruluğunun yanlış algılanan olumlu etkisine yol açabilir ve bu da eğitilen modelin bu yanlılığı taklit etmesine neden olur.

Ayrıca, Otomatik ML işleri otomatik olarak aşağıdaki grafikleri oluşturur. Bu grafikler, modelinizin sınıflandırmalarının doğruluğunu anlamanıza ve dengesiz verilerden etkilenmiş olabilecek modelleri belirlemenize yardımcı olur.

Grafik Açıklama
Karışıklık matrisi Doğru sınıflandırılmış etiketleri verilerin gerçek etiketlerine göre değerlendirir.
Duyarlık yakalama Doğru etiketlerin oranını, verilerin bulunan etiket örneklerinin oranına göre değerlendirir.
ROC eğrileri Doğru etiketlerin oranını hatalı pozitif etiketlerin oranına göre değerlendirir.

Dengesiz verileri işleme

Makine öğrenmesi iş akışını basitleştirme hedefinin bir parçası olarak, Otomatik ML dengesiz verilerle başa çıkmak için yerleşik özellikler sunar:

  • Otomatik ML, verilerdeki satırların daha fazla veya daha az "önemli" hale getirmek için kullanılabilecek bir ağırlık sütunu oluşturur.

  • Otomatik ML tarafından kullanılan algoritmalar, azınlık sınıfındaki örnek sayısının çoğunluk sınıfındaki örnek sayısının %20'sine eşit veya daha az olması durumunda dengesizliği algılar. Azınlık sınıfı en az örneği olan sınıfı, çoğunluk sınıfı ise çoğu örneği olan sınıfı ifade eder. Daha sonra otomatik makine öğrenmesi, sınıf ağırlıklarının kullanılmasının bu sorunu giderip gideremediğini ve performansı iyileştirip iyileştiremediğini denetlemek için alt örneklenmiş verilerle bir deneme çalıştırır. Bu denemeyle daha iyi bir performans elde ederse, çözümü uygular.

  • Dengesiz verilerle daha iyi ilgilenen bir performans ölçümü kullanın. Örneğin, AUC_weighted, her sınıfın katkısını, bu sınıfı temsil eden örneklerin göreli sayısına göre hesaplayan birincil bir ölçümdür. Bu ölçüm dengesizliklere karşı daha sağlamdır.

Aşağıdaki teknikler, Otomatik ML dışındaki dengesiz verileri işlemeye yönelik diğer seçeneklerdir:

  • Sınıf dengesizliği için bile yeniden örnekle. Küçük sınıfların örneklemesini artırabilir veya daha büyük sınıfları aşağı doğru örnekleyebilirsiniz. Bu yöntemleri işlemek ve analiz etmek için uzmanlık gerekir.

  • Dengesiz veriler için performans ölçümlerini gözden geçirin. Örneğin F1 puanı, duyarlık ve yakalamanın harmonik ortalamasıdır. Duyarlık, sınıflandırıcının kesinliğini ölçer ve burada daha yüksek duyarlık daha az hatalı pozitif sonucu gösterir. Geri çağırma, bir sınıflandırıcının tamlığını ölçer; burada yüksek geri çekme daha az hatalı negatif gösterir.

Sonraki adım