Makine öğrenmesi modellerindeki hataları değerlendirme
Geçerli model hata ayıklama uygulamalarının en büyük zorluklarından biri, karşılaştırma veri kümesindeki modelleri puanlama amacıyla toplu ölçümleri kullanmaktır. Model doğruluğu veri alt gruplarında tekdüzen olmayabilir ve modelin daha sık başarısız olduğu giriş kohortları olabilir. Bu hataların doğrudan sonuçları güvenilirlik ve güvenlik eksikliği, eşitlik sorunlarının ortaya çıkması ve makine öğrenmesine tamamen güven kaybıdır.
Hata analizi, toplam doğruluk ölçümlerinden uzaklaşır. Hataların geliştiricilere şeffaf bir şekilde dağıtılmasını sağlar ve hataları verimli bir şekilde tanımlayıp tanılamalarını sağlar.
Sorumlu yapay zeka panosunun hata analizi bileşeni, makine öğrenmesi uygulayıcılarına model hatası dağıtımı hakkında daha ayrıntılı bilgi sağlar ve hatalı veri kohortlarını hızla belirlemelerine yardımcı olur. Bu bileşen, genel karşılaştırma hata oranına kıyasla daha yüksek hata oranına sahip veri kohortlarını tanımlar. Aşağıdakiler aracılığıyla model yaşam döngüsü iş akışının tanımlama aşamasına katkıda bulunur:
- Yüksek hata oranlarına sahip kohortları ortaya koyan bir karar ağacı.
- Giriş özelliklerinin kohortlar arasında hata oranını nasıl etkilediğini görselleştiren bir ısı haritası.
Sistem belirli demografik gruplar için yetersiz performans gösterdiğinde veya eğitim verilerinde seyrek gözlemlenen giriş kohortlarında hatalarda tutarsızlıklar oluşabilir.
Bu bileşenin özellikleri, model hata profilleri oluşturan Hata Analizi paketinden gelir.
Aşağıdaki durumlarda hata analizini kullanın:
- Model hatalarının bir veri kümesinde ve çeşitli giriş ve özellik boyutlarında nasıl dağıtıldığı hakkında ayrıntılı bilgi edinin.
- Hedeflenen risk azaltma adımlarınızı bilgilendirmek için hatalı kohortları otomatik olarak bulmak için toplam performans ölçümlerini ayırın.
Hata ağacı
Genellikle hata desenleri karmaşıktır ve bir veya ikiden fazla özellik içerir. Geliştiriciler, kritik hatalarla birlikte gizli veri ceplerini keşfetmek için tüm olası özellik bileşimlerini keşfetmekte zorlanabilir.
Yükü hafifletmek için, ikili ağaç görselleştirmesi karşılaştırma verilerini otomatik olarak beklenmedik şekilde yüksek veya düşük hata oranlarına sahip yorumlanabilir alt gruplara böler. Başka bir deyişle ağaç, model hatasını başarıdan en üst düzeye çıkarmak için giriş özelliklerini kullanır. Bir veri alt grubunu tanımlayan her düğüm için kullanıcılar aşağıdaki bilgileri araştırabilir:
- Hata oranı: Modelin hatalı olduğu düğümdeki örneklerin bir kısmı. Kırmızı rengin yoğunluğuyla gösterilir.
- Hata kapsamı: Düğüme giren tüm hataların bir kısmı. Düğümün doldurma hızı üzerinden gösterilir.
- Veri gösterimi: Hata ağacının her düğümündeki örneklerin sayısı. Düğüme gelen kenarın kalınlığıyla ve düğümdeki toplam örnek sayısıyla birlikte gösterilir.
Hata ısı haritası
Görünüm, verileri tek boyutlu veya iki boyutlu giriş özellikleri kılavuzuna göre dilimler. Kullanıcılar analiz için ilgilendiğiniz giriş özelliklerini seçebilir.
Isı haritası, kullanıcının dikkatini bu bölgelere çekmek için daha koyu kırmızı bir renk kullanarak yüksek hata içeren hücreleri görselleştirir. Bu özellik özellikle hata temaları bölümler arasında farklı olduğunda yararlıdır ve bu genellikle pratikte gerçekleşir. Bu hata belirleme görünümünde analiz, kullanıcılar ve hataları anlamak için en önemli olabilecek özellikler hakkında bilgi veya hipotezleri tarafından yüksek oranda yönlendirilir.
Sonraki adımlar
- CLI ve SDK veya Azure Machine Learning stüdyosu kullanıcı arabirimi aracılığıyla Sorumlu yapay zeka panosu oluşturmayı öğrenin.
- Desteklenen hata analizi görselleştirmelerini keşfedin.
- Sorumlu yapay zeka panosunda gözlemlenen içgörülere göre Sorumlu yapay zeka karnesi oluşturmayı öğrenin.