Meta Verileri Düzenleme

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Bir veri kümesinde sütunlarla ilişkili meta verileri düzenler

Kategori: Veri Dönüştürme / Düzenleme

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, bir veri kümesinde sütunlarla ilişkili meta verileri değiştirmek için Machine Learning Studio'daki (klasik) Meta Verileri Düzenle modülünün nasıl kullanımı açıklanmıştır. Veri kümesinde değerler ve veri türleri değiştirilmez; , aşağı akış bileşenlerine Machine Learning nasıl kullandıracakları hakkında bilgi içeren meta verilerdir.

Tipik meta veri değişiklikleri şunları içerebilir:

  • Boole sütunlarını veya sayısal sütunları kategorik değerler olarak kabul etmek

  • Sınıf etiketini içeren sütunu veya kategorilere ayırmak ya da tahmin etmek istediğiniz değerleri belirten

  • Sütunları özellik olarak işaretleme

  • Tarih/saat değerlerini sayısal değere değiştirme (veya tam tersi)

  • Sütunları yeniden değiştirme

Bir sütunun tanımını, genellikle aşağı akış modülünün gereksinimlerini karşılamak için değiştirmeniz gereken her durumda Meta Verileri Düzenle'yi kullanın. Örneğin, bazı modüller yalnızca belirli veri türleriyle kullanılabilir veya veya gibi sütunlarda bayraklar IsFeature gerektirir IsCategorical.

Gerekli işlemi gerçekleştirdikten sonra meta verileri özgün durumuna sıfırlayabilirsiniz.

Meta Verileri Düzenle'yi yapılandırma

  1. Machine Learning Studio'da (klasik) denemenize Meta Verileri Düzenle modülünü ekleyin ve güncelleştirmek istediğiniz veri kümesine bağlanabilirsiniz. Bunu Veri Dönüştürme altında , Yönetkategorisinde bulabilirsiniz .

  2. Sütun seçiciyi başlat'a tıklayın ve çalışmak istediğiniz sütunu veya sütun dizilerini seçin. Sütunları ad veya dizine göre ayrı ayrı seçebilir veya türe göre bir sütun grubu seçebilirsiniz.

    İpucu

    Sütun dizinlerini kullanırken yardıma mı ihtiyacınız var? Teknik Notlar bölümüne bakın.

  3. Seçili sütunlara farklı bir veri türü atamaya ihtiyacınız varsa Veri türü seçeneğini belirleyin. Belirli işlemler için veri türünü değiştirmek gerekli olabilir. Örneğin, kaynak veri kümenizin metin olarak ele alan sayıları varsa matematik işlemlerini kullanmadan önce bunları sayısal bir veri türüne dönüştürmeniz gerekir.

    • Desteklenen veri türleri , String, Integer, Floating point, Booleanve DateTime'tir TimeSpan.

    • Birden çok sütun seçilirse, meta veri değişikliklerini tüm seçili sütunlara uygulamelisiniz. Örneğin, 2-3 sayısal sütun seçtiğinizi diyelim. Bunların hepsini bir dize veri türü olarak değiştirebilir ve tek işlemde yeniden adlandırabilirsiniz. Ancak, bir sütunu dize veri türüne, başka bir sütunu ise float'dan tamsayıya değiştiremezsiniz.

    • Yeni bir veri türü belirtmezseniz sütun meta verileri değişmez.

    • Veri türü değişiklikleri yalnızca veri kümesiyle ilişkili meta verileri ve aşağı akış işlemlerinde verilerin nasıl işleyeceğini etkiler. Sütunda farklı bir işlem (yuvarlama gibi) gerçekleştirmedikçe gerçek sütun değerleri değiştirilmez. Sütun veri türünü sıfırlamak için Meta Verileri Düzenle'yi kullanarak istediğiniz zaman özgün veri türünü kurtarabilirsiniz.

    Not

    Herhangi bir sayı türünü DateTime türüyle değiştirirsanız Tarih Saat Biçimi alanını boş bırakın. Şu anda hedef veri biçimini belirtmek mümkün değildir.

Machine Learning desteklenen .NET DateTime nesnelerinden biri ile uyumlu ise tarihleri sayıya veya sayılardan tarihe dönüştürebilirsiniz. Daha fazla bilgi için Teknik Notlar bölümüne bakın.

  1. Seçili sütunlarda yer alan değerlerin kategori olarak kabul edilmelidir belirtmek için Kategorik seçeneğini belirleyin.

    Örneğin, 0,1 ve 2 sayılarını içeren bir sütuna sahipsiniz ancak sayıların aslında "Dumancı", "Sigara içen değil" ve "Bilinmeyen" olduğunu biliyorsunuz. Bu durumda, sütunu kategorik olarak gösterip değerlerin yalnızca verileri gruplama amacıyla sayısal hesaplamalarda kullanılmay olduğundan emin olabilirsiniz.

  2. Modelde verileri kullanmanın yolunu değiştirmek Machine Learning Alanlar seçeneğini kullanın.

    • Özellik: Bir sütunu yalnızca özellik sütunlarında çalışan modüllerle kullanmak üzere özellik olarak bayrakla işaretleyin. Varsayılan olarak, tüm sütunlar başlangıçta özellik olarak kabul edilir.

    • Etiket: Etiketi (tahmin edilebilir öznitelik veya hedef değişken olarak da bilinir) işaretlemek için bu seçeneği kullanın. Birçok modül, veri kümesinde en az bir (ve yalnızca bir) etiket sütununu gerektirir.

      Çoğu durumda, Machine Learning bir sınıf etiketi içerdiğini tespit etmek için bu meta verileri ayar olarak sütunun doğru şekilde tanımlandı olduğundan emin olun. Bu seçeneğin ayarı veri değerlerini değiştirmez; yalnızca bazı makine öğrenmesi algoritmaları verileri işleme yolunu değiştirmez.

    • Ağırlık: Sütun değerlerinin makine öğrenmesi puanlama veya eğitim operasyonlarında kullanım ağırlıklarını temsil ettiğini belirtmek için sayısal verilerle bu seçeneği kullanın. Bir veri kümesinde yalnızca bir ağırlık sütunu mevcut olabilir ve sütun sayısal olmalıdır. Bu seçenek yalnızca şu modellerde çalışır: Two-Class Lojistik Regresyon, Two-Class Vektör Makinesi ve Two-Class Sinir Ağı.

    İpucu

    Bu kategorilere sığmayan verileriniz mi var? Örneğin, veri kümeniz değişken olarak yararlı olmayan benzersiz tanımlayıcılar gibi değerler içerebilir. Bazen kimlikler modelde kullanılırken sorunlara neden olabilir.

    Neyse ki tüm verilerinizi Machine Learning bu nedenle bu tür sütunları veri kümesinden silmek zorunda değilsiniz. Bazı özel sütun kümesinde işlem gerçekleştirmeniz gereken durumlarda, Veri Kümesindeki Sütunları Seçme modülünü kullanarak diğer tüm sütunları geçici olarak kaldırmanız gerekir. Daha sonra Sütun Ekle modülünü kullanarak sütunları veri kümesinde birleştirebilirsiniz .

  3. Önceki seçimleri temizlemek ve meta verileri varsayılan değerlere geri yüklemek için aşağıdaki seçenekleri kullanın.

    • Özelliği temizle: Özellik bayrağını kaldırmak için bu seçeneği kullanın.

      Tüm sütunlar başlangıçta özellik olarak kabul edildiklerinden, matematik işlemleri gerçekleştiren modüllerde sayısal sütunların değişken olarak kabul rakamlarını önlemek için bu seçeneği kullanabilirsiniz.

    • Etiketi temizle: Etiket meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

    • Puanı temizle: Puan meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

      Şu anda bir sütunu puan olarak açıkça işaretleme özelliği, bir sütunun Machine Learning. Ancak bazı işlemler, bir sütunun dahili olarak puan olarak işaretlenmelerine neden olabilir. Ayrıca, özel bir R modülü puan değerlerini çıkış olarak kullanabilir.

    • Net ağırlık: Ağırlık meta verilerini belirtilen sütundan kaldırmak için bu seçeneği kullanın.

  4. Yeni sütun adları için seçili sütunun veya sütunların yeni adını yazın.

    • Sütun adları yalnızca UTF-8 kodlaması tarafından desteklenen karakterleri kullanabilir. Boş dizelere, null değerlere veya tamamen boşluklardan oluşan adlara izin verilmez.

    • Birden çok sütunu yeniden adlandırmak için adları sütun dizinleri sırasına göre virgülle ayrılmış bir liste olarak yazın.

    • Seçilen tüm sütunların yeniden adlandırılması gerekir. Sütunları atlayıp atamazsınız.

    İpucu

    Birden çok sütunu yeniden adlandırmak gerekirse önceden hazırlanmış virgülle ayrılmış bir dizeyi yapıştırabilirsiniz. Ya da R Betiği Yürüt veya Dönüştürme modüllerini SQL uygula modüllerini kullanın. Kod ve örnekler için Teknik Notlar bölümüne bakın.

  5. Denemeyi çalıştırın.

Örnekler

Verileri hazırlama ve model oluşturmada Meta Verileri Düzenle'nin nasıl Azure Yapay Zeka Galerisi:

  • Akciğer kanseri algılama: Sütun adları, veri kümelerini katıldıktan sonra değiştirilir. Patient ID sütunu , hesaplamada kullanılmaması için değil dize değeri olarak işlenmesini sağlamak için kategorik olarak da işaretlenir.

  • Twitter yaklaşım analizi: Sütunların özellik olarak kabul edildiklerini sağlamak için Meta Verileri Düzenle'yi nasıl kullanabileceğinizi gösterir. Denemenin devamlarında özellik meta verileri temiz olur.

  • Veri İşleme ve analiz: Bu örnekte, bir web sayfasından yüklenen veriler için yeni sütun adları tanımlamak üzere Meta Verileri Düzenle kullanılır.

Teknik notlar

Bu bölümde, bilinen sorunlar, sık sorulan sorular ve bazı yaygın geçici çözüm örnekleri yer almaktadır.

Bilinen Sorunlar

  • Özel meta veriler desteklenmiyor. Machine Learning ' de özel meta verileri kullanmak veya veri düzenleme meta verileridışında sütun meta verilerini düzenlemek mümkün değildir. Örneğin, bir sütunun benzersiz bir tanımlayıcı olduğunu gösteren meta veriler ekleyemez veya diğer açıklayıcı öznitelikler ekleyebilirsiniz. Machine Learning, faktörlerle, özelliklerle, ağırlıklarla ve etiketlerle çalışmak için yalnızca R içinde kullanılan meta veri özniteliklerini destekler.

  • Desteklenmeyen veri türleri. Şu sayısal veri türleri desteklenmez: Double (ondalık) ve zaman damgası.

  • Puan sütunlarını tanımlama. Şu anda, bir sütunu, puanlarıiçeren bir sütuna Işaretlemek Için düzenleme meta verilerinde bir seçenek yoktur. Ancak, bir sütunun puanlar içerdiğini belirtmek için, R betiği Yürüt modülünü aşağıdakine benzer bir komut dosyasıyla birlikte kullanabilirsiniz:

    dataset <- maml.mapInputPort(1)   
    attr(dataset$x, "label.type")= "True Labels"  
    attr(dataset$y, "feature.channel")= "Multiclass Classification Scores"  
    attr(dataset$y, "score.type")= "Assigned Labels"  
    maml.mapOutputPort("dataset");
    
  • DateTime biçimleriyle ilgili sorunlar. Machine Learning POSIXct tarafından kullanılan temel alınan datetime veri türü.

    Bir sütundaki tüm tarihler varsayılan Ayrıştırıcı tarafından ayrıştırılacaksa, sütun içeri aktarılır ve dize verileri olarak kabul edilir.

    Meta verileri Düzenle modülünü kullanarak bir sütunu öğesine DateTime dönüştürmeye çalışırsanız ve bir hata alırsanız, tarihin .net 'in varsayılan olarak kabul ettiği bir biçimde olmadığı anlamına gelir. bu durumda, sütununuzu varsayılan ayrıştırıcı tarafından kabul edilen bir biçime dönüştürmek için R betiği yürüt modülünü veya SQL dönüştürme modülünü kullanmanızı öneririz.

    DateTime. Parse yöntemi

    Standart Tarih ve saat biçim dizeleri

Sütun dizinlerini kullanarak sütunları seçme

Çok büyük veri kümelerinde, tüm sütun adlarını el ile yazmak veya seçmek mümkün değildir. Sütun dizinini kullanmak, birçok sütun belirtmek için kullanabileceğiniz bir kısayoldur. Bu bölümde, sütun dizinlerini kullanma hakkında bazı ipuçları verilmektedir.

Örneğin, sütun seçiciyi açın, kurallar' a tıklayın, Ekle ve sütun dizinleri' ni seçin ve ardından bir Aralık veya sayı serisini aşağıdaki şekilde yazın:

  • İlk 20 sütunu seçmek için yazın 1-20
  • 5 ' ten başlayan ve 20 sütununu içeren bir sütun aralığı seçmek için yazın 5-20 .
  • Kesintili sütunları seçmek için yazın 1,5,10,15
  • Sütunları seçmek için yazın 1-2, 5 1, 2 ve 5, sütunları atlayarak 3 ve 4
  • Veri kümesinde kullanılabilir olan sütun sayısından daha büyük bir dizin değeri yazamaz.

Aşağıdaki denemeleri birden çok sütunu seçme ve değiştirme için diğer yöntemlere örnekler sağlar:

  • Ikili sınıflandırma: Breakst Cancer algılama: özgün veriler, bir elektronik tablodan içeri aktarma sırasında oluşturulan çok sayıda boş sütun içeriyordu. Bölünmüş veri modülündeki 1-11 sütunları belirtilerek ek sütunlar kaldırılmıştır.

  • Veri KÜMESINI UCI 'Dan indir: verileri el ile gir modülünü kullanarak sütun adlarını bir liste olarak nasıl sağlayabileceğinizi gösterir ve ardından R betiği Yürüt modülünü kullanarak listeyi başlık olarak veri kümesine ekleyebilirsiniz.

  • Regex sütunları seç: Bu deneme, sütun adlarına normal bir ifade uygulamanıza imkan tanıyan özel bir modül sağlar. Meta verileri düzenlemekiçin bu modülü giriş olarak kullanabilirsiniz.

Sütun adlarını değiştirmek için alternatif Yöntemler

yeniden adlandırılacak çok sayıda sütun varsa, R betiği yürüt modülünü veya uygulama SQL dönüştürme modülünü kullanabilirsiniz.

R betiği kullanma

Machine Learning tarafından kullanılan veri kümeleri, bu modüle bir data. frame olarak geçirilir. bu, sütun adlarını listelemek veya değiştirmek için r colnames() işlevini ve diğer ilgili R işlevlerini kullanabileceğiniz anlamına gelir.

Örneğin, aşağıdaki kod yeni sütun adlarının bir listesini oluşturur ve sonra yeni sütun başlıkları oluşturmak için bu listeyi giriş veri kümesine uygular.

irisdata <- maml.mapInputPort(1);    
newnames <- c("CLASS", "SEPAL  LENGTH", "SEPAL WIDTH", "PETAL LENGTH", "PETAL WIDTH");
colnames(irisdata) = newnames
maml.mapOutputPort("irisdata");

Aşağıdaki örnek, için irisdata sütun adlarında belirtilen dizenin tüm örneklerini Global olarak değiştirmek Için R 'de bir normal ifade kullanır:

# Map input dataset to variable
newirisdata <- maml.mapInputPort(1) # class: data.frame
names(newirisdata) <- gsub("col", "iris", names(newirisdata))
maml.mapOutputPort("newirisdata");

SQL kullanma

Aşağıdaki örnek, giriş olarak bir veri kümesini alır ve sonra as anahtar sözcüğünü kullanarak sütun adlarını değiştirir.

SELECT col1 as [C1], 
  col2 as [C2], 
  col3 as [C3], 
  col4 as [C4],
  col5 as [C5] 
FROM t1;

Beklenen giriş

Ad Tür Description
Veri kümesi Veri tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Sütun Herhangi biri ColumnSelection Değişikliklerinizin uygulanması gereken sütunları seçin.
Veri türü Liste Meta veri Düzenleyicisi veri türü Değiştirilmediği Sütun için yeni veri türünü belirtin.
Kategorik Liste Meta veri Düzenleyicisi kategorik Değiştirilmediği Sütunun kategorik olarak işaretlenip işaretlenmeyeceğini belirtin.
Alanlar Liste Meta veri düzenleyici bayrağı Değiştirilmediği Sütunun öğrenme algoritmalarıyla bir özellik veya etiket olarak değerlendirilmesinin gerekip gerekmediğini belirtin.
Yeni sütun adları herhangi biri Dize Sütunların yeni adlarını yazın.

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri tablosu Değişen meta verileri olan veri kümesi

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş veri kümesi null veya boşsa bir özel durum oluşur.
Hata 0017 Belirtilen bir veya daha fazla sütunda geçerli modül tarafından desteklenmeyen bir tür varsa bir özel durum oluşur.
Hata 0020 Modüle geçirilen bazı veri kümelerinde sütun sayısı çok küçük olduğunda bir özel durum oluşur.
Hata 0031 Sütun kümesindeki sütun sayısı gerekenden küçükse bir özel durum oluşur.
Hata 0027 İki nesnenin aynı boyutta olması gerektiğinde bir özel durum oluşur, ancak bunlar değildir.
Hata 0028 Sütun kümesi yinelenen sütun adları içerdiğinde bir özel durum oluşur ve buna izin verilmez.
Hata 0037 Birden çok etiket sütunu belirtilirse ve yalnızca birine izin veriliyorsa bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning hata kodları.

apı özel durumlarının listesi için bkz. Machine Learning REST API hata kodları.

Ayrıca bkz.

İşleme
Veri dönüştürme
A-Z modül listesi