KümelemeYi Tarama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Kümeleme modeli için en uygun ayarları belirlemek üzere parametre tarama gerçekleştirir

Kategori: Machine Learning / Eğit

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, parametre tarama kullanarak model eğitmek için Machine Learning Studio'da (klasik) Tarama Kümeleme modülünün nasıl kullanımı açıklanmıştır. Parametre tarama, bir veri kümesine göre bir model için en iyi hiper parametreleri bulmanın bir yolu olarak kullanılır.

Tarama Kümeleme modülü, kümeleme modelleri için özel olarak tasarlanmıştır. Veri kümesiyle birlikte giriş olarak kümeleme modeli sağlarız. Modül, en iyi küme kümesine sahip modeli bulana kadar belirttiğiniz bir dizi parametreyi tekrarlar, farklı parametrelerle modelleri oluşturma ve test eder. Otomatik olarak en iyi yapılandırmayı hesaplar ve ardından bu yapılandırmayı kullanarak modeli eğiter.

Ayrıca test edilen modelleri açıklayan bir ölçüm kümesi ve en iyi modeli temel alan bir küme atamaları kümesi döndürür.

Tarama Kümeleyme'yi yapılandırma

  1. Studio'da denemenize Tarama Kümeleme modülünü ekleyin (klasik). Bu modülü Eğitim kategorisindeki Machine Learningaltında bulabilirsiniz.

  2. K-Means Kümeleme modülünü ve eğitim veri kümenizi denemeye ekleyin ve her ikisini de Tarama Kümeleme modülüne bağlayın.

  3. K-Means Kümeleme modülünü aşağıdaki gibi bir parametre tarama kullanmak üzere yapılandırma:

    1. Eğitmen modu oluştur'a ParametreAralığı ayarlayın.

    2. Her parametre için Aralık Oluşturucusu'nu kullanın (veya el ile birden çok değer yazarak) değerlerin tekrar aralığını ayarlayın.

    3. Tarama için başlatma: K-means algoritmasının ilk küme centroid'lerini nasıl bulması gerektiğini belirtin. Rastgele başlatma ve ardından centroid'leri test etme için birden çok algoritma sağlanır.

      Eğitim veri kümeniz kısmi değerlerle bile bir etiket sütunu içeriyorsa, bu değerleri centroidler için kullanabilirsiniz. Etiket değerlerinin nasıl kullanıldıklarını belirtmek için Etiket Modu Ata seçeneğini kullanın.

      İpucu

      Etiket sütunuz önceden bu şekilde işaretlenmiş olması gerekir. Hata alırsanız, etiketleri içeren sütunu tanımlamak için Meta Verileri Düzenle'yi kullanmayı deneyin.

    4. Tarama için çekirdek sayısı: Parametre taraması yaparken kaç farklı rastgele başlangıç çekirdeği deneyeceğiz?

    5. Küme benzerliğini ölçerken kullanmak üzere ölçümü seçin. Daha fazla bilgi için K-Means Kümeleme konu başlığına bakın.

    6. Yinelemeler: K-means algoritmasının gerçekleştirmesi gereken toplam yineleme sayısını belirtin. Bu yinelemeler, küme centroid'lerinin seçimini iyileştirmek için kullanılır.

    7. Taramayı başlatmak için bir etiket sütunu kullanıyorsanız etiket sütunundaki değerlerin nasıl işlenmiş olacağını belirtmek için Etiket Modu Ata seçeneğini kullanın.

      • Eksik değerleri doldurma: Etiket sütunda bazı eksik değerler varsa, veri noktasının atandığı kümeye göre kategorilere atama yapmak için bu seçeneği kullanın.

      • En yakın olandan merkeze yaz: Kümenin merkezine en yakın noktanın etiketini kullanarak bir kümeye atanan tüm veri noktaları için etiket değerleri üretir.

      • Etiket sütununu yoksay: Yukarıdaki işlemlerden birini gerçekleştirmek istemiyorsanız bu seçeneği belirleyin.

  4. Kümelemeyi Tarama modülünde, eğitilen kümeleme modelinin uygun olduğunu tahmin etmek için matematiksel yöntemi belirtmek üzere Kümeleme sonucu ölçmek için Ölçüm seçeneğini kullanın:

    • Basitleştirilmiş Basit: Bu ölçüm, her küme içindeki veri noktalarının sıkılığını yakalar. Bu, her satırın kendi kümesiyle benzerliğini ve bir sonraki en yakın kümeyle benzerliğini bir bileşimi olarak hesaplanır. Kümenin yalnızca 1 satırı varsa, sonuç olarak 0'ı almamak için bunun yerine bir sonraki en yakın centroid'e eşit olarak eşit olarak sıralanmış uzaklık hesaplanır. "Basitleştirilmiş", küme centroid'e olan uzaklığın basit bir benzerlik ölçüsü olarak kullanılmış olması anlamına gelir. Genel olarak, daha yüksek bir puan daha iyidir. Veri kümesi üzerinde ortalama değer, verilerin ne kadar iyi kümelenmiş olduğunu gösterir. Çok fazla veya çok az küme varsa, bazı kümeler kalan kümelere göre daha düşük değerlere sahip olur. Daha fazla bilgi için bu Wikipedia makalesine bakın.

    • Davies-Bouldin: Bu ölçüm, en az dağılıma sahip en küçük küme kümesi tanımlamayı amaçlar. Ölçüm, küme ayrımı yerine her küme içindeki dağılım oranı olarak tanımlandığı için, daha düşük bir değer kümelemenin daha iyi olduğu anlamına gelir. En iyi kümeleme modeli bu ölçümü en aza indirger. Ortalama ölçüm Davies-Bouldin hesaplamak için küme başına ortalama satırdan orta mesafeye hesaplanır. Her küme çifti için bu ortalamaların toplamı, centroidler arasındaki mesafeye bölündü. Diğer tüm kümeler üzerinde en yüksek değer her küme için seçilir ve tüm kümelere göre ortalamaya çıkar. Daha fazla bilgi için bu Wikipedia makalesine bakın.

    • Dunn: Bu ölçüm, en küçük en küçük küme kümelerini tanımlamayı amaçlar. Genellikle, bu ölçüm için daha yüksek bir değer daha iyi kümeleme gösterir. Dunn ölçümlerini hesaplamak için minimum centroid-centroid uzaklığı, her veri noktasının küme merkezine en yüksek uzaklığına bölündü. Daha fazla bilgi için bu Wikipedia makalesine bakın.

    • Ortalama sapma: Bu ölçüm, her veri noktasından küme merkezine olan ortalama mesafe dikkate alarak hesaplanır. Centroid sayısı arttıkça değer azalır; bu nedenle, centroid sayısını bulmak için tarama yapmak yararlı değildir. En iyi centroid başlatma çekirdeğini seçerken bu ölçümün kullanılması önerilir.

  5. Parametre tarama modunu belirtin: Eğitimde kullanılan değer birleşimlerini ve bunların nasıl seçileceklerini tanımlayan bir seçenek belirleyin:

    • Kılavuzun tamamı: Verilen aralık içindeki tüm değerler denenip değerlendirilir. Bu seçenek genellikle daha fazla işlem gücü kullanımına neden olur.

    • Rastgele tarama: Çalıştırma sayısını sınırlamak için bu seçeneği kullanın. Kümeleme modeli, izin verilen parametre değerleri aralığından rastgele seçilen değerlerin bir bileşimi kullanılarak sınanarak değerlendirilir.

  6. Rastgele taramada en fazla çalıştırma sayısı: Rastgele tarama seçeneğini seçerseniz bu seçeneği ayarlayın. Rastgele seçilen parametre kümelerini test etme sırasında en fazla yineleme sayısını sınırlamak için bir değer yazın.

    Uyarı

    K-Ortalamalar Kümeleme modülünün Yineleme parametreleri farklı bir amaca sahip ve bu ayardan etkilenmez: Her veri noktasından küme merkezline olan ortalama mesafeyi en aza indirerek kümeleri geliştirmek için yapılan veri geçişlerinin sayısını sınırlar. Buna karşılık, Tarama Kümeleme modülü parametresi tarafından tanımlanan yinelemeler, farklı rastgele centroid başlatmalarını denemek için gerçekleştirilir. Bu en aza inme sorununun NP-hard olduğu bilinir; Bu nedenle, birkaç rastgele çekirdeğin deneği daha iyi sonuçlar üretebilir.

    Rastgele bir tarama seçtiyseniz, üzerinde centroid oluşturmaya başlanacak ilk rastgele çekirdek değerlerini belirtmek için Rastgele çekirdek seçeneğini kullanın. Kümeleme modeli oluşturmak için parametre tarama kullanmanın bir avantajı, kümeleme modellerinin bilinen duyarlılığını ilk çekirdek değerine azaltmak için birden çok çekirdek değerini kolayca test etmektir.

  7. Sütun Kümesi'ne tıklayın ve kümeleri oluştururken kullanmak istediğiniz sütunları seçin. Varsayılan olarak, kümeleme modelini oluşturma ve test etme sırasında tüm özellik sütunları kullanılır.

    Veri kümenize bir etiket sütunu dahilebilirsiniz. Bir etiket varsa, bu etiketi kullanarak centroid seçimine kılavuzluk edin, etiketi özellik olarak kullanabilir veya etiketi yoksayabilirsiniz. Yukarıdaki 3. Adımda açıklandığı gibi Kmeans Kümeleme modülünü etiket işleme için bu seçenekleri ayarlayın.

  8. Yalnızca Sonuç Ekle veya Işaretini Kaldır seçeneğini işaretleyin: Sonuçlarda döndürülen sütunları kontrol etmek için bu seçeneği kullanın.

    Varsayılan olarak modül, sonuçlarla birlikte eğitim veri kümesi özgün sütunlarını döndürür. Bu seçeneğin işaretini kaldırsanız. yalnızca küme atamaları döndürülür.

  9. Denemenize Kümelere Veri Atama modülünü ekleyin.

  10. Bağlan Kümelere Veri Atama'nın Eğitilmiş Modelgirişine En İyi Eğitilmiş Model etiketli çıkışı yazın.

  11. Değerlendirme için hedeflenen veri kümesini ekleyin ve Kümelere Veri Atama modülününVeri kümesi bağlantı noktasına bağlama.

  12. Modeli Değerlendirme modülünü ekleyin ve Kümelere Veri Atama'ya bağlama. İsteğe bağlı olarak, bir değerlendirme veri kümesine bağlanabilirsiniz.

  13. Denemeyi çalıştırın.

Sonuçlar

Tarama Kümeleme modülü üç farklı sonuç verir:

  • En Iyi eğitilen model. Puanlama ve değerlendirme için kullanabileceğiniz eğitilen bir model. En iyi duruma getirilmiş kümeleme modelini yakalamak ve skor için kullanmak üzere eğitim modeli olarak kaydet ' i seçin.

  • Sonuç veri kümesi. İyileştirilmiş modele göre küme atamaları kümesi.

    Sütun adı Description
    Atamalar Bu değer, her bir veri noktasının atanma kümesini gösterir. Eğitilen modeldeki kümeler 0 tabanlı dizinler ile etiketlidir.
    DistancesToClusterCenter No. 1

    DistancesToClusterCenter No. n
    Bu değer, veri noktasının her kümenin merkezine ne kadar yakın olduğunu gösterir.

    İyileştirilmiş modelde oluşturulan her küme için bir sütun oluşturulur.

    Santroıds seçeneğinin sayısını kullanarak küme sayısını kısıtlayabilirsiniz.

    Varsayılan olarak, küme atamalarını gözden geçirmeyi ve yorumlamasını kolaylaştırmak için eğitim veri kümesindeki sütunları, sonuçlarla birlikte döndürebilirsiniz.

  • Tarama sonuçları. Kümeler için aşağıdaki değerlendirme ölçümlerini içeren bir veri kümesi:

    Sütun adı Description
    Küme ölçümü Bu çalıştırma için Ortalama küme kalitesini gösteren bir değer. Çalıştırmalar en iyi puana göre sıralanır.
    Centroıd sayısı Süpürme bu belirli yinelemede oluşturulan kümelerin sayısı
    Çalıştırma dizini Her yineleme için bir tanımlayıcı

    İpucu

    Tarama ayarlarken seçtiğiniz ölçüme bağlı olarak, küme ölçümü için döndürülen değerler farklı şekilde yorumlanmalıdır. Varsayılan ölçüm olan Basitleştirilmiş siluetiiçin daha yüksek bir puan daha iyidir. Davvıes-Bouldıniçin daha düşük bir puan daha iyidir.

Örnekler

Örneğin, K-Ortalamalar kümesiyle bir parametre süpürme örnekleri görmek için Azure yapay zeka Galerisibakın:

Teknik notlar

Bu bölümde ipuçları ve uygulama ayrıntıları yer almaktadır.

Kümeleme modellerini iyileştirme

Kümeleme modellerinin kalitesi ve doğruluğu, küme başlatmak için kullanılan centroıd sayısı ve çekirdek değeri gibi başlangıç parametreleri seçiminizden kesinlikle etkilenebilir. İlk parametrelere bu duyarlılığı azaltmak için, tarama Kümelemesi modülü parametrelerin en iyi birleşimini bulmanıza yardımcı olur. Sınanacak bir parametre aralığı belirtirsiniz ve modül birden çok modeli otomatik olarak oluşturup sınar ve son olarak en uygun küme sayısını seçer.

Bir parametre süpürme oluşturmak için, K-anlamı kümeleme modülünü de bir parametre süpürme kullanacak şekilde yapılandırmanız gerekir. Süpürme 'nin tüm olası birleşimlerin üzerinde yinelemelerine veya bir dizi parametrenin rastgele birleşimini kullanmasını belirtebilirsiniz. Ayrıca, yinelemeli model oluşturma ve test etme işlemi sırasında centroıds doğruluğunu ölçmek için çeşitli Standart ölçülerden birini seçebilirsiniz. Belirtilen sayıda yineleme tamamlandıktan sonra, modül seçili ölçüm temelinde en iyi küme sayısını seçer ve sonuçları değerlendirmek için kullanabileceğiniz raporları verir.

Kullanım ipuçları

  • Bazı durumlarda, kaç küme bulmayı beklediğinizi zaten biliyorbilirsiniz. Örneğin, verileriniz centroıds seçimini yaparken kullanılabilecek sınıf etiketlerine sahip olabilir. Bu durumda, ilk centroıds seçimine kılavuzluk etmek için, K-anlamı kümeleme modülünü etiket sütununu kullanacak şekilde yapılandırabilirsiniz.

  • Beklenen kümelerin bazılarını tanıyor ancak kaç küme en iyi durumda olduğundan emin değilseniz, centroıd sayısını bilinen etiket değerlerinin sayısından büyük bir sayı olarak ayarlayın. Tarama Kümelemesi modülü, bilinen veri noktaları için kümeler oluşturur ve ardından kalan veri noktaları için en iyi ek küme sayısını belirler.

Etiket sütununda eksik değerleri işleme

Etiket sütuninizde eksik değerleri işlemek için birkaç yol vardır. Örneğin, bir görüntü sınıflandırma göreviniz olduğunu ve görüntülerden yalnızca bazılarının etiketlendiğini varsayalım.

Centroıds seçimine kılavuzluk etmek için Label sütununu kullanabilir, ancak eksik etiketlerin küme atamalarını kullanarak doldurulmasını belirtebilirsiniz. Diğer bir deyişle, varolan etiket değerleri değiştirilmez, ancak eksik Etiketler doldurulur.

Alternatif olarak, bir kümeye atanan tüm veri noktaları için, kümeyi en iyi şekilde temsil eden tek bir etiket kullanarak, varolan etiketlerin de üzerine yazabilirsiniz. Bu seçeneğin nasıl yararlı olduğunu anlamak için, farklı köpek breeds gibi çok ayrıntılı etiketlere sahip görüntü verilerini kullandığınızı düşünün. Bu seçeneği kullanarak tüm ayrıntılı etiketleri tek Kategori etiketi, "köpek" ile değiştirebilirsiniz.

Günlükteki çekirdek değerler

Tren kümeleme modeli modülü tarafından oluşturulan günlük dosyası, rastgele çekirdek özelliği içinde sağlanmış olan temel değerinden bağımsız olarak, tüm K-bit kümeleme algoritmasındaki tüm yinelemeler için aynı tohum 'un kullanıldığını belirtmek için görüntülenir.

Aslında uygulama, her çalıştırma için farklı bir rastgele sayı dizisi oluşturmak için Kullanıcı tarafından sağlanan tohum 'u kullanır. Bu nedenle, rastgele oluşturulan tüm sayıları oluşturmak için yalnızca bir çekirdek gereklidir.

Günlüğün amacı, kullanıcının Özellikler bölmesinde bir çekirdek belirtmezse modülün hangi çekirdek tarafından kullanacağını gösterir.

Beklenen girişler

Ad Tür Description
Eğitilen model Iluster arabirimi Eğitilen kümeleme modeli
Veri kümesi Veri tablosu Giriş veri kaynağı

Modül parametreleri

Ad Tür Değerler İsteğe Bağlı Varsayılan Description
Kümeleme sonucunu ölçme ölçümü Küme ölçümü Basitleştirilmiş silueti, Davvıes-Bouldın, Dunn, ortalama sapma Gerekli Basitleştirilmiş silueti Regresyon modellerini değerlendirmek için kullanılan ölçümü seçin
Parametre swemodunu belirtin Tarama yöntemleri Tüm kılavuz veya rastgele tarama Gerekli Rastgele tarama Parametre alanında kılavuzun tamamını süpürme veya sınırlı sayıda örnek çalıştırma kullanarak süpürme
Sütun kümesi ColumnSelection Gerekli Sütun seçim kalıbı
Rastgele tarama sırasında en fazla çalıştırma sayısı Tamsayı [1; 10000] Yalnızca SweepingMode değeri rastgele tarama olarak ayarlandığında kullanılabilir 5 Rastgele tarama kullanılırken yürütülecek en fazla çalışma sayısını ayarla
Rastgele çekirdek Tamsayı Yalnızca SweepingMode değeri rastgele tarama olarak ayarlandığında kullanılabilir 0 Rastgele tarama için rastgele sayı oluşturucuyu temel alan bir değer girin
Yalnızca sonuç için ekleme veya onay Işaretini denetle Boole Gerekli Doğru Çıktı veri kümesinin atamalar sütunu eklenmiş giriş veri kümesini içermesi gerektiğini belirtmek için seçin. Yalnızca atamalar sütununun çıkış olması gerektiğini belirtmek için seçimi kaldırın.

Çıkışlar

Ad Tür Description
En iyi eğitilen model Iluster arabirimi Eğitilen kümeleme modeli
Sonuç veri kümesi Veri tablosu Giriş veri kümesi yalnızca atamaların veya atamalar sütununun veri sütunuyla eklenir
Tarama sonuçları Veri tablosu Küme tarama çalıştırmaları için ortaya çıkan ölçüm günlüğü

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boş olduğunda özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

K Ortalamaları Kümeleme
Kümelere Veri Atama
Machine Learning/eğitme
Model/kümeleme Machine Learning/başlat