Veri bileşenini normalleştirme

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır.

Bir veri kümesini normalleştirme yoluyla dönüştürmek için bu bileşeni kullanın.

Normalleştirme genellikle makine öğrenmesi için veri hazırlamanın bir parçası olarak uygulanan bir tekniktir. Normalleştirmenin amacı, veri kümesindeki sayısal sütunların değerlerini, değer aralıklarındaki farkları bozmadan veya bilgi kaybetmeden ortak bir ölçek kullanacak şekilde değiştirmektir. Bazı algoritmaların verileri doğru modellemesi için de normalleştirme gerekir.

Örneğin, giriş veri kümenizin 0 ile 1 arasında değerler içeren bir sütun ve 10.000 ile 100.000 arasında değerler içeren başka bir sütun içerdiğini varsayalım. Sayıların ölçeğindeki büyük fark, modelleme sırasında değerleri özellik olarak birleştirmeye çalıştığınızda sorunlara neden olabilir.

Normalleştirme , kaynak verilerdeki genel dağılımı ve oranları koruyan yeni değerler oluştururken, değerleri modelde kullanılan tüm sayısal sütunlara uygulanan bir ölçek içinde tutarak bu sorunları önler.

Bu bileşen, sayısal verileri dönüştürmek için çeşitli seçenekler sunar:

  • Tüm değerleri 0-1 ölçekle değiştirebilir veya değerleri mutlak değerler yerine yüzdebirlik dereceler olarak temsil ederek dönüştürebilirsiniz.
  • Normalleştirmeyi tek bir sütuna veya aynı veri kümesindeki birden çok sütuna uygulayabilirsiniz.
  • İşlem hattını yinelemeniz veya diğer verilere aynı normalleştirme adımlarını uygulamanız gerekiyorsa, adımları normalleştirme dönüşümü olarak kaydedebilir ve aynı şemaya sahip diğer veri kümelerine uygulayabilirsiniz.

Uyarı

Bazı algoritmalar, modeli eğitmeden önce verilerin normalleştirilmesini gerektirir. Diğer algoritmalar kendi veri ölçeklendirme veya normalleştirme işlemlerini gerçekleştirir. Bu nedenle, tahmine dayalı model oluştururken kullanılacak bir makine öğrenmesi algoritması seçtiğinizde, eğitim verilerine normalleştirme uygulamadan önce algoritmanın veri gereksinimlerini gözden geçirmeyi unutmayın.

Verileri Normalleştirmeyi Yapılandırma

Bu bileşeni kullanarak aynı anda yalnızca bir normalleştirme yöntemi uygulayabilirsiniz. Bu nedenle, seçtiğiniz tüm sütunlara aynı normalleştirme yöntemi uygulanır. Farklı normalleştirme yöntemleri kullanmak için Verileri Normalleştirme'nin ikinci bir örneğini kullanın.

  1. Verileri Normalleştir bileşenini işlem hattınıza ekleyin. Bileşeni Azure Machine Learning'de, Veri Dönüştürme'nin altında Ölçeklendir ve Azalt kategorisinde bulabilirsiniz.

  2. Tüm sayılardan en az bir sütun içeren bir veri kümesini bağlayın.

  3. Normalleştirebileceğiniz sayısal sütunları seçmek için Sütun Seçici'yi kullanın. Tek tek sütunları seçmezseniz, varsayılan olarak girişteki tüm sayısal tür sütunları eklenir ve seçilen tüm sütunlara aynı normalleştirme işlemi uygulanır.

    Normalleştirilmemesi gereken sayısal sütunlar eklerseniz bu garip sonuçlara yol açabilir! Sütunları her zaman dikkatli bir şekilde denetleyin.

    Hiçbir sayısal sütun algılanırsa, sütunun veri türünün desteklenen bir sayısal tür olduğunu doğrulamak için sütun meta verilerini denetleyin.

    İpucu

    Belirli bir türdeki sütunların giriş olarak sağlandığından emin olmak için Verileri Normalleştirmeden önce Veri Kümesindeki Sütunları Seç bileşenini kullanmayı deneyin.

  4. İşaretlendiğinde sabit sütunlar için 0 kullanın: Herhangi bir sayısal sütun tek bir değişmeyen değer içerdiğinde bu seçeneği belirleyin. Bu, bu tür sütunların normalleştirme işlemlerinde kullanılmamasını sağlar.

  5. Dönüştürme yöntemi açılan listesinden, seçilen tüm sütunlara uygulanacak tek bir matematik işlevi seçin.

    • Zscore: Tüm değerleri z puanına dönüştürür.

      Sütundaki değerler aşağıdaki formül kullanılarak dönüştürülür:

      z-scores kullanarak normalleştirme

      Ortalama ve standart sapma her sütun için ayrı ayrı hesaplanır. Popülasyon standart sapması kullanılır.

    • MinMax: Min-max normalizer her özelliği [0,1] aralığına doğrusal olarak yeniden ölçekler.

      [0,1] aralığına yeniden ölçeklendirme, her özelliğin değerleri en düşük değerin 0 olması için kaydırılarak ve ardından yeni en büyük değere (özgün en büyük ve en küçük değerler arasındaki fark) bölünerek yapılır.

      Sütundaki değerler aşağıdaki formül kullanılarak dönüştürülür:

      min-max işlevini kullanarak normalleştirme

    • Lojistik: Sütundaki değerler aşağıdaki formül kullanılarak dönüştürülür:

      lojistik işleve göre normalleştirme formülü

    • LogNormal: Bu seçenek tüm değerleri logaritmik bir ölçeğe dönüştürür.

      Sütundaki değerler aşağıdaki formül kullanılarak dönüştürülür:

      formül günlüğü normal dağılımı

      Burada μ ve σ, her sütun için ayrı ayrı tahmin edilen maksimum olasılık tahmini olarak verilerden ampirik olarak hesaplanan dağıtımın parametreleridir.

    • TanH: Tüm değerler hiperbolik tanjanta dönüştürülür.

      Sütundaki değerler aşağıdaki formül kullanılarak dönüştürülür:

      tanh işlevini kullanarak normalleştirme

  6. İşlem hattını gönderin veya Verileri Normalleştir bileşenine çift tıklayıp Seçili Çalıştır'ı seçin.

Sonuçlar

Verileri Normalleştir bileşeni iki çıkış oluşturur:

  • Dönüştürülen değerleri görüntülemek için bileşene sağ tıklayın ve Görselleştir'i seçin.

    Varsayılan olarak, değerler yerinde dönüştürülür. Dönüştürülen değerleri özgün değerlerle karşılaştırmak istiyorsanız, veri kümelerini yeniden birleştirir ve sütunları yan yana görüntülemek için Sütun Ekle bileşenini kullanın.

  • Aynı normalleştirme yöntemini başka bir veri kümesine uygulayabilmek için dönüştürmeyi kaydetmek için bileşeni seçin ve sağ paneldeki Çıkışlar sekmesinden Veri kümesini kaydet'i seçin.

    Ardından sol gezinti bölmesinin Dönüşümler grubundan kaydedilen dönüştürmeleri yükleyebilir ve Dönüştürmeyi Uygula'yı kullanarak aynı şemaya sahip bir veri kümesine uygulayabilirsiniz.

Sonraki adımlar

Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.