Veri dönüştürmeleri

Veri dönüştürmeleri şunlar için kullanılır:

  • model eğitimi için verileri hazırlama
  • TensorFlow veya ONNX biçiminde içeri aktarılan bir model uygulama
  • bir modelden geçirildikten sonra işlem sonrası veriler

Bu kılavuzdaki dönüştürmeler, IEstimator arabirimini uygulayan sınıfları döndürür. Veri dönüştürmeleri birbirine zincirlenebilir. Her dönüştürme, bağlı başvuru belgelerinde belirtilen belirli tür ve biçimlerdeki verileri bekler ve üretir.

Bazı veri dönüştürmeleri, parametrelerini hesaplamak için eğitim verilerini gerektirir. Örneğin: NormalizeMeanVariance transformatör, işlem sırasında Fit() eğitim verilerinin ortalamasını ve varyansını hesaplar ve bu parametreleri işlemde Transform() kullanır.

Diğer veri dönüştürmeleri için eğitim verileri gerekmez. Örneğin: dönüştürme işlemi ConvertToGrayscale sırasında Transform()Fit() herhangi bir eğitim verisi görmeden gerçekleştirebilir.

Sütun eşleme ve gruplandırma

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
Concatenate Bir veya daha fazla giriş sütununu yeni bir çıkış sütununa birleştirme Yes
CopyColumns Bir veya daha fazla giriş sütunlarını kopyalama ve yeniden adlandırma Yes
DropColumns Bir veya daha fazla giriş sütunu bırakma Yes
SelectColumns Giriş verilerinden saklamak için bir veya daha fazla sütun seçin Yes

Normalleştirme ve ölçeklendirme

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
NormalizeMeanVariance Ortalamayı (eğitim verilerinin) çıkarma ve varyansa (eğitim verilerinin) bölünmesi Yes
NormalizeLogMeanVariance Eğitim verilerinin logaritması temelinde normalleştirme Yes
NormalizeLpNorm Giriş vektörlerini lp normlarına göre ölçeklendirin; burada p 1, 2 veya sonsuzdur. Varsayılan olarak l2 (Öklid uzaklığı) normunu kullanır Yes
NormalizeGlobalContrast Satır verilerinin ortalamasını çıkararak ve standart sapmaya veya l2 norma (satır verilerinin) bölünmesini sağlayarak satırdaki her değeri ölçeklendirin ve yapılandırılabilir bir ölçek faktörüyle çarpın (varsayılan 2) Yes
NormalizeBinning Giriş değerini bir bölme dizinine atayın ve 0 ile 1 arasında bir kayan değer üretmek için bölme sayısına bölün. Bölme sınırları, eğitim verilerini bölmeler arasında eşit olarak dağıtmak için hesaplanır Yes
NormalizeSupervisedBinning Giriş değerini etiket sütunuyla bağıntısına göre bir bölmeye atama Yes
NormalizeMinMax Eğitim verilerindeki minimum ve maksimum değerler arasındaki farka göre girişi ölçeklendirin Yes
NormalizeRobustScaling Verileri 0 civarında ortalayacak ve verileri nicelik aralığına göre ölçeklendirecek aykırı değerlere dayanıklı istatistikler kullanarak her değeri ölçeklendirin. Yes

Veri türleri arasındaki dönüştürmeler

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
ConvertType Giriş sütununun türünü yeni bir türe dönüştürme Yes
MapValue Sağlanan eşleme sözlüğüne göre değerleri anahtarlara (kategoriler) eşleme Hayır
MapValueToKey Giriş verilerinden eşlemeyi oluşturarak değerleri anahtarlara (kategoriler) eşleyin Yes
MapKeyToValue Anahtarları özgün değerlerine dönüştürme Yes
MapKeyToVector Anahtarları özgün değerlerin vektörlerine dönüştürme Yes
MapKeyToBinaryVector Anahtarları özgün değerlerin ikili vektörlerine dönüştürme Hayır
Hash Giriş sütunundaki değeri karma olarak oluşturma Yes

Metin dönüştürmeleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
FeaturizeText Metin sütununu normalleştirilmiş ngram ve char-gram sayılarından oluşan float dizisine dönüştürme Hayır
TokenizeIntoWords Bir veya daha fazla metin sütunlarını tek tek sözcüklere bölme Yes
TokenizeIntoCharactersAsKeys Bir veya daha fazla metin sütununun tek tek karakterlere bölünmesi, bir konu kümesi üzerinde kayan Yes
NormalizeText Büyük/küçük harf değiştirme, aksan işaretlerini, noktalama işaretlerini ve sayıları kaldırma Yes
ProduceNgrams Metin sütununu ngram sayısı (ardışık sözcük dizileri) içeren bir torbaya dönüştürme Yes
ProduceWordBags Metin sütununu ngram sayısı vektörü bir torbaya dönüştürme Yes
ProduceHashedNgrams Metin sütununu karma ngram sayılarından oluşan bir vektöre dönüştürme Hayır
ProduceHashedWordBags Metin sütununu karma ngram sayılarından oluşan bir torbaya dönüştürme Yes
RemoveDefaultStopWords Belirtilen dil için varsayılan durdurma sözcüklerini giriş sütunlarından kaldırma Yes
RemoveStopWords Belirtilen durdurma sözcüklerini giriş sütunlarından kaldırır Yes
LatentDirichletAllocation Bir belgeyi (kayanların vektörü olarak temsil edilir) bir konu kümesi üzerinde kayanlar vektörü haline dönüştürme Yes
ApplyWordEmbedding Önceden eğitilmiş bir model kullanarak metin belirteçlerinin vektörlerini cümle vektörlerine dönüştürme Yes

Görüntü dönüştürmeleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
ConvertToGrayscale Görüntüyü gri tonlamalıya dönüştürme Hayır
ConvertToImage Piksel vektörünün dönüştürülmesi ImageDataViewType Hayır
ExtractPixels Pikselleri giriş görüntüsünden sayı vektörlerine dönüştürme Hayır
LoadImages Bir klasörden belleğe görüntü yükleme Hayır
LoadRawImageBytes Ham bayt görüntülerini yeni bir sütuna yükler. Hayır
ResizeImages Görüntüleri yeniden boyutlandırma Hayır
DnnFeaturizeImage Giriş görüntüsünü bir özellik vektörüne dönüştürmek için önceden eğitilmiş derin sinir ağı (DNN) modeli uygular Hayır

Kategorik veri dönüştürmeleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
OneHotEncoding Bir veya daha fazla metin sütunlarını tek sık kodlanmış vektörlere dönüştürme Yes
OneHotHashEncoding Bir veya daha fazla metin sütunlarını karma tabanlı bir sık erişimli kodlanmış vektöre dönüştürme Hayır

Zaman serisi veri dönüştürmeleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
DetectAnomalyBySrCnn Spektral Artık (SR) algoritmasını kullanarak giriş zamanı serisi verilerindeki anomalileri algılama Hayır
DetectChangePointBySsa Tekil spektrum analizi (SSA) kullanarak zaman serisi verilerindeki değişiklik noktalarını algılama Hayır
DetectIidChangePoint Uyarlamalı çekirdek yoğunluğu tahminlerini ve martingale puanlarını kullanarak bağımsız ve özdeş dağıtılmış (IID) zaman serisi verilerindeki değişiklik noktalarını algılama Hayır
ForecastBySsa Tekil spektrum analizi (SSA) kullanarak zaman serisi verilerini tahmin edin Hayır
DetectSpikeBySsa Tekil spektrum analizi (SSA) kullanarak zaman serisi verilerindeki ani artışları algılama Hayır
DetectIidSpike Uyarlamalı çekirdek yoğunluğu tahminlerini ve martingale puanlarını kullanarak bağımsız ve özdeş dağıtılmış (IID) zaman serisi verilerindeki ani artışları algılama Hayır
DetectEntireAnomalyBySrCnn SRCNN algoritmasını kullanarak giriş verilerinin tamamı için anomalileri algılama. Hayır
DetectSeasonality Fourier analizini kullanarak mevsimselliği algılama. Hayır
LocalizeRootCause Bir karar ağacı algoritması kullanarak zaman serisi girişinden kök nedeni yerelleştirir. Hayır
LocalizeRootCauses Bağlama serisi girişinden kök nedenleri yerelleştirir. Hayır

Eksik değerler

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
IndicateMissingValues Giriş sütunundaki değer eksik olduğunda değeri true olan yeni bir boole çıkış sütunu oluşturun Yes
ReplaceMissingValues Değeri giriş sütununda eksikse varsayılan değere ayarlanmış olan yeni bir çıkış sütunu ve aksi takdirde giriş değeri oluşturun Yes

Özellik seçimi

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
SelectFeaturesBasedOnCount Varsayılan olmayan değerleri eşikten büyük olan özellikleri seçme Yes
SelectFeaturesBasedOnMutualInformation Etiket sütunundaki verilerin en bağımlı olduğu özellikleri seçin Yes

Özellik dönüştürmeleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
ApproximatedKernelMap Her giriş vektörlerini daha düşük boyutlu bir özellik alanına eşleyin; burada iç ürünler yaklaşık bir çekirdek işlevine sahiptir, böylece özellikler doğrusal algoritmalara giriş olarak kullanılabilir Hayır
ProjectToPrincipalComponents Ana Bileşen Analizi algoritmasını uygulayarak giriş özelliği vektörünün boyutlarını azaltın

Açıklanabilirlik dönüşümleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
CalculateFeatureContribution Özellik vektörünün her öğesi için katkı puanlarını hesaplama Hayır

Kalibrasyon dönüşümleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
Platt(String, String, String) Eğitim verileri kullanılarak tahmin edilen parametrelerle lojistik regresyon kullanarak ikili sınıflandırıcı ham puanını sınıf olasılığına dönüştürür Yes
Platt(Double, Double, String) Sabit parametrelerle lojistik regresyon kullanarak ikili sınıflandırıcı ham puanını sınıf olasılığına dönüştürür Yes
Naive İkili sınıflandırıcı ham puanını, bölmelere puan atayarak ve bölmeler arasındaki dağılıma göre olasılığı hesaplayarak sınıf olasılığına dönüştürür Yes
Isotonic İkili sınıflandırıcı ham puanını, sınırların konumunun ve bölmelerin boyutunun eğitim verileri kullanılarak tahmin edildiği bölmelere puanlar atayarak sınıf olasılığına dönüştürür Hayır

Derin öğrenme dönüşümleri

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
ApplyOnnxModel İçeri aktarılan ONNX modeliyle giriş verilerini dönüştürme Hayır
LoadTensorFlowModel İçeri aktarılan TensorFlow modeliyle giriş verilerini dönüştürme Hayır

Özel dönüştürmeler

Dönüşüm Tanım ONNX Dışarı Aktarılabilir
FilterByCustomPredicate Belirtilen koşulun true döndürdüğü satırları bırakır. Hayır
FilterByStatefulCustomPredicate Belirtilen koşulun true döndürdüğü satırları bırakır, ancak belirtilen duruma izin verir. Hayır
CustomMapping Kullanıcı tanımlı eşlemeyle mevcut sütunları yeni sütunlara dönüştürme Hayır
Expression Sütunları yeni sütunlara dönüştürmek için ifade uygulama Hayır