Eğitim verilerinizi çeşitli veri kaynaklarından Machine Learning Studio'ya (klasik) aktarma

ŞUNLAR IÇIN GEÇERLIDIR: Şunun için geçerlidir. Machine Learning Studio (klasik) Için geçerli değildir.Azure Machine Learning

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Tahmine dayalı bir analiz çözümü geliştirmek ve eğitmek için Machine Learning Studio'da (klasik) kendi verilerinizi kullanmak için şu verileri kullanabilirsiniz:

  • Yerel dosya - Çalışma alanınızda veri kümesi modülü oluşturmak için sabit sürücünüzden yerel verileri önceden yükleyin
  • Çevrimiçi veri kaynakları - Denemeniz çalışırken çeşitli çevrimiçi kaynaklardan birine ait verilere erişmek için Verileri İçeri Aktarma modülünü kullanın
  • Machine Learning Studio (klasik) denemesi - Machine Learning Studio'da veri kümesi olarak kaydedilen verileri kullanma (klasik)
  • SQL Server veritabanı - Verileri el ile kopyalamak zorunda kalmadan SQL Server veritabanındaki verileri kullanma

Not

Machine Learning Studio'da (klasik) eğitim verileri için kullanabileceğiniz bir dizi örnek veri kümesi vardır. Bunlar hakkında bilgi için bkz . Machine Learning Studio'da (klasik) örnek veri kümelerini kullanma.

Verileri hazırlama

Machine Learning Studio (klasik), bir veritabanından ayrılmış veya yapılandırılmış metin verileri gibi dikdörtgen veya tablosal verilerle çalışacak şekilde tasarlanmıştır, ancak bazı durumlarda dikdörtgen olmayan veriler kullanılabilir.

Verilerinizi Studio'ya (klasik) aktarmadan önce nispeten temiz olması en iyisidir. Örneğin, sıralanmamış dizeler gibi sorunlarla ilgilenmek istersiniz.

Ancak, Studio'da (klasik) bulunan ve siz verilerinizi içeri aktardıktan sonra denemenizdeki verilerin bazı düzenlemelerini sağlayan modüller vardır. Kullanmakta olduğunuz makine öğrenmesi algoritmalarına bağlı olarak, eksik değerler ve seyrek veriler gibi veri yapısal sorunlarını nasıl çözebileceğinize karar vermeniz gerekebilir ve bu konuda yardımcı olabilecek modüller vardır. Bu işlevleri gerçekleştiren modüller için modül paletinin Veri Dönüştürme bölümüne bakın.

Denemenizin herhangi bir noktasında, çıkış bağlantı noktasına tıklayarak modül tarafından üretilen verileri görüntüleyebilir veya indirebilirsiniz. Modüle bağlı olarak, farklı indirme seçenekleri kullanılabilir veya verileri Web tarayıcınızda Studio'da (klasik) görselleştirebilirsiniz.

Desteklenen veri biçimleri ve veri türleri

Verileri içeri aktarmak için hangi mekanizmayı kullandığınıza ve nereden geldiğine bağlı olarak, denemenize bir dizi veri türünü aktarabilirsiniz:

  • Düz metin (.txt)
  • Üst bilgi (.csv) veya olmadan virgülle ayrılmış değerler (CSV) (.nh.csv)
  • Üst bilgiyle (.tsv) veya (.nh.tsv) olmadan sekmeyle ayrılmış değerler (TSV)
  • Excel dosyası
  • Azure tablosu
  • Hive tablosu
  • SQL veritabanı tablosu
  • OData değerleri
  • SVMLight verileri (.svmlight) (biçim bilgileri için SVMLight tanımına bakın)
  • Öznitelik İlişkisi Dosya Biçimi (ARFF) verileri (.arff) (biçim bilgileri için ARFF tanımına bakın)
  • Zip dosyası (.zip)
  • R nesnesi veya çalışma alanı dosyası (. RData)

Verileri meta veri içeren ARFF gibi bir biçimde içeri aktarırsanız, Studio (klasik) her sütunun başlığını ve veri türünü tanımlamak için bu meta verileri kullanır.

Bu meta verileri içermeyen TSV veya CSV biçimi gibi verileri içeri aktarırsanız, Studio (klasik) verileri örnekleme yoluyla her sütun için veri türünü çıkarsar. Verilerde sütun başlıkları da yoksa, Studio (klasik) varsayılan adları sağlar.

Meta Verileri Düzenle modülünü kullanarak sütunların başlıklarını ve veri türlerini açıkça belirtebilir veya değiştirebilirsiniz.

Aşağıdaki veri türleri Studio (klasik) tarafından tanınır:

  • String
  • Tamsayı
  • Çift
  • Boolean
  • DateTime
  • TimeSpan

Studio, modüller arasında veri geçirmek için veri tablosu adlı bir iç veri türü kullanır. Veri Kümesine Dönüştür modülünü kullanarak verilerinizi açıkça veri tablosu biçimine dönüştürebilirsiniz.

Veri tablosu dışındaki biçimleri kabul eden tüm modüller, verileri bir sonraki modüle geçirmeden önce verileri sessizce veri tablosuna dönüştürür.

Gerekirse, diğer dönüştürme modüllerini kullanarak veri tablosu biçimini CSV, TSV, ARFF veya SVMLight biçimine dönüştürebilirsiniz. Bu işlevleri gerçekleştiren modüller için modül paletinin Veri Biçimi Dönüştürmeleri bölümüne bakın.

Veri kapasiteleri

Machine Learning Studio'daki (klasik) modüller, yaygın kullanım örnekleri için 10 GB'a kadar yoğun sayısal veri içeren veri kümelerini destekler. Bir modülün birden fazla giriş aldığı durumlarda 10 GB değeri tüm giriş boyutlarının toplamıdır. Hive veya Azure SQL Veritabanı sorgularını kullanarak daha büyük veri kümelerini örnekleyebilir veya verileri içeri aktarmadan önce Sayımlara Göre Öğrenme ön işlemini kullanabilirsiniz.

Aşağıdaki veri türleri, özellik normalleştirme sırasında daha büyük veri kümelerine genişleyebilir ve boyutu 10 GB’den az olacak şekilde sınırlıdır:

  • Seyrek
  • Kategorik
  • Dizeler
  • İkili veri

Aşağıdaki modüller, boyutu 10 GB'den az veri kümeleriyle sınırlıdır:

  • Öneren modüller
  • Synthetic Minority Oversampling Technique (SMOTE) modülü
  • Betik modülleri: R, Python, SQL
  • Katılma veya Özellik Karma gibi çıkış veri boyutunun giriş veri boyutundan büyük olabileceği modüller
  • Yineleme sayısının çok büyük olduğu durumlarda Çapraz doğrulama, Model Ayarlama Hiperparametreleri, Sıralı Regresyon ve Tek veya Tüm Çoklu Sınıflar

Birkaç GB'den büyük veri kümeleri için verileri doğrudan yerel bir dosyadan karşıya yüklemek yerine Azure Depolama'ya veya Azure SQL Veritabanı yükleyin ya da Azure HDInsight'ı kullanın.

Görüntü verileri hakkındaki bilgileri Görüntüleri İçeri Aktar modül başvurusunda bulabilirsiniz.

Yerel dosyadan içeri aktarma

Studio'da (klasik) eğitim verileri olarak kullanmak üzere sabit sürücünüzden bir veri dosyası yükleyebilirsiniz. Bir veri dosyasını içeri aktardığınızda, çalışma alanınızdaki denemelerde kullanıma hazır bir veri kümesi modülü oluşturursunuz.

Yerel sabit sürücüden verileri içeri aktarmak için aşağıdakileri yapın:

  1. Studio (klasik) penceresinin alt kısmındaki +YENİ'ye tıklayın.
  2. VERI KÜMESI ve YEREL DOSYADAN'ı seçin.
  3. Yeni veri kümesi karşıya yükle iletişim kutusunda, karşıya yüklemek istediğiniz dosyaya göz atın.
  4. Bir ad girin, veri türünü tanımlayın ve isteğe bağlı olarak bir açıklama girin. Bir açıklama önerilir; gelecekte verileri kullanırken hatırlamak istediğiniz verilerle ilgili tüm özellikleri kaydetmenize olanak tanır.
  5. Bu, mevcut bir veri kümesinin yeni sürümüdür onay kutusu , mevcut veri kümesini yeni verilerle güncelleştirmenizi sağlar. Bunu yapmak için bu onay kutusuna tıklayın ve var olan bir veri kümesinin adını girin.

Yeni veri kümesini karşıya yükleme

Karşıya yükleme süresi, verilerinizin boyutuna ve hizmete bağlantınızın hızına bağlıdır. Dosyanın uzun süreceğini biliyorsanız, beklerken Studio (klasik) içinde başka şeyler de yapabilirsiniz. Ancak, veri yükleme işlemi tamamlanmadan önce tarayıcının kapatılması karşıya yüklemenin başarısız olmasına neden olur.

Verileriniz karşıya yüklendikten sonra bir veri kümesi modülünde depolanır ve çalışma alanınızdaki tüm denemeler için kullanılabilir.

Bir denemeyi düzenlerken, yüklediğiniz veri kümelerini modül paletindeki Kayıtlı Veri Kümeleri listesinin altındaki Veri Kümelerim listesinde bulabilirsiniz. Daha fazla analiz ve makine öğrenmesi için veri kümesini kullanmak istediğinizde veri kümesini sürükleyip deneme tuvaline bırakabilirsiniz.

Çevrimiçi veri kaynaklarından içeri aktarma

Denemeniz, Verileri İçeri Aktar modülünü kullanarak deneme çalışırken çeşitli çevrimiçi veri kaynaklarından verileri içeri aktarabilir.

Not

Bu makalede Verileri İçeri Aktarma modülü hakkında genel bilgiler sağlanmaktadır. Erişebileceğiniz veri türleri, biçimler, parametreler ve sık sorulan soruların yanıtları hakkında daha ayrıntılı bilgi için Verileri İçeri Aktarma modülünün modül başvuru konusuna bakın.

Verileri İçeri Aktar modülünü kullanarak, denemeniz çalışırken çeşitli çevrimiçi veri kaynaklarından birinden verilere erişebilirsiniz:

  • HTTP kullanan bir Web URL'si
  • HiveQL kullanan Hadoop
  • Azure blob depolama
  • Azure tablosu
  • Azure SQL Veritabanı. SQL Yönetilen Örneği veya SQL Server
  • Şu anda OData adlı bir veri akışı sağlayıcısı
  • Azure Cosmos DB

Denemeniz çalışırken bu eğitim verilerine erişildiğinden, yalnızca bu denemede kullanılabilir. Karşılaştırmak gerekirse, bir veri kümesi modülünde depolanan veriler çalışma alanınızdaki tüm denemelerde kullanılabilir.

Studio (klasik) denemenizde çevrimiçi veri kaynaklarına erişmek için Denemenize Verileri İçeri Aktar modülünü ekleyin. Ardından, veri kaynağını seçmek ve yapılandırmak için adım adım kılavuzlu yönergeler için Özellikler'in altında Veri İçeri Aktarma Sihirbazı'nı Başlat'ı seçin. Alternatif olarak, Özellikler'in altında Veri kaynağı'nı el ile seçebilir ve verilere erişmek için gereken parametreleri sağlayabilirsiniz.

Desteklenen çevrimiçi veri kaynakları aşağıdaki tabloda listelenir. Bu tablo ayrıca desteklenen dosya biçimlerini ve verilere erişmek için kullanılan parametreleri özetler.

Önemli

Şu anda Verileri İçeri ve Dışarı Aktarma modülleri yalnızca Klasik dağıtım modeli kullanılarak oluşturulan Azure depolama alanından veri okuyabilir ve yazabilir. Başka bir deyişle, sık erişimli depolama erişim katmanı veya seyrek erişimli depolama erişim katmanı sunan yeni Azure Blob Depolama hesap türü henüz desteklenmiyor.

Genel olarak, bu hizmet seçeneği kullanılabilir duruma gelmeden önce oluşturmuş olabileceğiniz tüm Azure depolama hesapları etkilenmemelidir. Yeni bir hesap oluşturmanız gerekiyorsa Dağıtım modeli için Klasik'i seçin veya Resource manager'ı kullanın ve Hesap türü için Blob depolama yerine Genel amaçlı'yı seçin.

Daha fazla bilgi için bkz. Azure Blob Depolama: Sık Erişimli ve Seyrek Erişimli Depolama Katmanları.

Desteklenen çevrimiçi veri kaynakları

Machine Learning Studio (klasik) Verileri İçeri Aktarma modülü aşağıdaki veri kaynaklarını destekler:

Veri Kaynağı Açıklama Parametreler
HTTP üzerinden Web URL'si HTTP kullanan herhangi bir web URL'sinden virgülle ayrılmış değerler (CSV), sekmeyle ayrılmış değerler (TSV), öznitelik ilişkisi dosya biçimi (ARFF) ve Destek Vektör Makineleri (SVM-light) biçimlerindeki verileri okur URL: Site URL'si ve dosya adı dahil olmak üzere dosyanın tam adını herhangi bir uzantıyla belirtir.

Veri biçimi: Desteklenen veri biçimlerinden birini belirtir: CSV, TSV, ARFF veya SVM-light. Verilerin üst bilgi satırı varsa, sütun adlarını atamak için kullanılır.
Hadoop/HDFS Hadoop'taki dağıtılmış depolamadan verileri okur. İstediğiniz verileri, SQL benzeri bir sorgu dili olan HiveQL kullanarak belirtirsiniz. HiveQL, verileri Studio'ya (klasik) eklemeden önce verileri toplamak ve veri filtreleme gerçekleştirmek için de kullanılabilir. Hive veritabanı sorgusu: Verileri oluşturmak için kullanılan Hive sorgusunu belirtir.

HCatalog sunucusu URI'si : Kümenizin adını, kümenizin adı.azurehdinsight.net> biçimini <kullanarak belirtti.

Hadoop kullanıcı hesabı adı: Kümeyi sağlamak için kullanılan Hadoop kullanıcı hesabı adını belirtir.

Hadoop kullanıcı hesabı parolası : Kümeyi sağlarken kullanılan kimlik bilgilerini belirtir. Daha fazla bilgi için bkz . HDInsight'ta Hadoop kümeleri oluşturma.

Çıktı verilerinin konumu: Verilerin Hadoop dağıtılmış dosya sisteminde mi (HDFS) yoksa Azure'da mı depolandığını belirtir.
    Çıktı verilerini HDFS'de depolarsanız HDFS sunucu URI'sini belirtin. (HDInsight küme adını HTTPS:// ön eki olmadan kullandığınızdan emin olun).

    Çıktı verilerinizi Azure'da depolarsanız Azure depolama hesabı adını, Depolama erişim anahtarını ve Depolama kapsayıcısı adını belirtmeniz gerekir.
SQL veritabanı Azure SQL Veritabanı, SQL Yönetilen Örneği veya Azure sanal makinesinde çalışan bir SQL Server veritabanında depolanan verileri okur. Veritabanı sunucusu adı: Veritabanının üzerinde çalıştığı sunucunun adını belirtir.
    Azure SQL Veritabanı olması durumunda, oluşturulan sunucu adını girin. Genellikle generated_identifier.database.windows.net> biçimindedir.<

    Azure Sanal makinesinde barındırılan bir SQL sunucusu olması durumunda tcp:<Virtual Machine DNS Adı>, 1433 girin

Veritabanı adı : Sunucudaki veritabanının adını belirtir.

Sunucu kullanıcı hesabı adı: Veritabanı için erişim izinlerine sahip bir hesabın kullanıcı adını belirtir.

Sunucu kullanıcı hesabı parolası: Kullanıcı hesabının parolasını belirtir.

Veritabanı sorgusu:Okumak istediğiniz verileri açıklayan bir SQL deyimi girin.
Şirket içi SQL veritabanı SQL veritabanında depolanan verileri okur. Veri ağ geçidi: SQL Server veritabanınıza erişebildiği bir bilgisayarda yüklü Veri Yönetimi Ağ Geçidinin adını belirtir. Ağ geçidini ayarlama hakkında bilgi için bkz . Sql server'dan alınan verileri kullanarak Machine Learning Studio (klasik) ile gelişmiş analiz gerçekleştirme.

Veritabanı sunucusu adı: Veritabanının üzerinde çalıştığı sunucunun adını belirtir.

Veritabanı adı : Sunucudaki veritabanının adını belirtir.

Sunucu kullanıcı hesabı adı: Veritabanı için erişim izinlerine sahip bir hesabın kullanıcı adını belirtir.

Kullanıcı adı ve parola: Veritabanı kimlik bilgilerinizi girmek için Değerleri girin'e tıklayın. SQL Server'ınızın nasıl yapılandırıldığına bağlı olarak Windows Tümleşik Kimlik Doğrulaması veya SQL Server Kimlik Doğrulaması kullanabilirsiniz.

Veritabanı sorgusu:Okumak istediğiniz verileri açıklayan bir SQL deyimi girin.
Azure Tablosu Azure Depolama'daki Tablo hizmetinden verileri okur.

Çok fazla miktarda veriyi seyrek okuyorsanız Azure Tablo Hizmeti'ni kullanın. Esnek, ilişkisel olmayan (NoSQL), yüksek oranda ölçeklenebilir, ucuz ve yüksek oranda kullanılabilir bir depolama çözümü sağlar.
Verileri İçeri Aktar'daki seçenekler, genel bilgilere mi yoksa oturum açma kimlik bilgileri gerektiren özel bir depolama hesabına mı eriştiğinize bağlı olarak değişir. Bu, her biri kendi parametre kümesine sahip olan "PublicOrSAS" veya "Account" değerine sahip olabilecek Kimlik Doğrulama Türü tarafından belirlenir.

Genel veya Paylaşılan Erişim İmzası (SAS) URI'si: Parametreler şunlardır:

    Tablo URI'si: Tablonun Genel veya SAS URL'sini belirtir.

    Özellik adlarının taranacak satırlarını belirtir: Değerler, belirtilen satır sayısını taramak için TopN veya tablodaki tüm satırları almak için ScanAll'dır.

    Veriler homojen ve öngörülebilirse, TopN'yi seçmeniz ve N için bir sayı girmeniz önerilir. Büyük tablolar için bu, daha hızlı okuma sürelerine neden olabilir.

    Veriler tablonun derinliğine ve konumuna göre değişen özellik kümeleriyle yapılandırılmışsa, tüm satırları taramak için Tümünü Tara seçeneğini belirleyin. Bu, sonuçta elde edilen özelliğinizin ve meta veri dönüştürmenizin bütünlüğünü sağlar.

Özel Depolama Hesabı: Parametreler şunlardır:

    Hesap adı: Okunacak tabloyu içeren hesabın adını belirtir.

    Hesap anahtarı: Hesapla ilişkili depolama anahtarını belirtir.

    Tablo adı : Okunacak verileri içeren tablonun adını belirtir.

    Özellik adlarını taramak için satırlar: Değerler, belirtilen sayıda satırı taramak için TopN veya tablodaki tüm satırları almak için ScanAll'dır.

    Veriler homojen ve öngörülebilirse TopN'yi seçip N için bir sayı girmenizi öneririz. Büyük tablolar için bu, daha hızlı okuma sürelerine neden olabilir.

    Veriler tablonun derinliğine ve konumuna göre değişen özellik kümeleriyle yapılandırılmışsa, tüm satırları taramak için Tümünü Tara seçeneğini belirleyin. Bu, sonuçta elde edilen özelliğinizin ve meta veri dönüştürmenizin bütünlüğünü sağlar.

Azure Blob Storage Görüntüler, yapılandırılmamış metin veya ikili veriler dahil olmak üzere Azure Depolama'daki Blob hizmetinde depolanan verileri okur.

Blob hizmetini kullanarak verileri genel kullanıma açabilir veya uygulama verilerini özel olarak depolayabilirsiniz. HTTP veya HTTPS bağlantılarını kullanarak verilerinize her yerden erişebilirsiniz.
Verileri İçeri Aktar modülündeki seçenekler, genel bilgilere mi yoksa oturum açma kimlik bilgileri gerektiren özel bir depolama hesabına mı eriştiğinize bağlı olarak değişir. Bu, "PublicOrSAS" veya "Account" değerine sahip olabilecek Kimlik Doğrulama Türü tarafından belirlenir.

Genel veya Paylaşılan Erişim İmzası (SAS) URI'si: Parametreler şunlardır:

    URI: Depolama blobu için Genel veya SAS URL'sini belirtir.

    Dosya Biçimi: Blob hizmetindeki verilerin biçimini belirtir. Desteklenen biçimler CSV, TSV ve ARFF'tir.

Özel Depolama Hesabı: Parametreler şunlardır:

    Hesap adı: Okumak istediğiniz blobu içeren hesabın adını belirtir.

    Hesap anahtarı: Hesapla ilişkili depolama anahtarını belirtir.

    Kapsayıcı, dizin veya blob yolu: Okunacak verileri içeren blobun adını belirtir.

    Blob dosya biçimi: Blob hizmetindeki verilerin biçimini belirtir. Desteklenen veri biçimleri CSV, TSV, ARFF, belirtilen kodlamaya sahip CSV ve Excel'dir.

      Biçim CSV veya TSV ise, dosyanın üst bilgi satırı içerip içermediğini belirttiğinizden emin olun.

      Excel çalışma kitaplarından verileri okumak için Excel seçeneğini kullanabilirsiniz. Excel veri biçimi seçeneğinde, verilerin excel çalışma sayfası aralığında mı yoksa Excel tablosunda mı olduğunu belirtin. Excel sayfası veya eklenmiş tablo seçeneğinde, okumak istediğiniz sayfanın veya tablonun adını belirtin.

Veri Akışı Sağlayıcısı Desteklenen bir akış sağlayıcısından verileri okur. Şu anda yalnızca Açık Veri Protokolü (OData) biçimi desteklenmektedir. Veri içerik türü: OData biçimini belirtir.

Kaynak URL: Veri akışının tam URL'sini belirtir.
Örneğin, aşağıdaki URL Northwind örnek veritabanından okunur: https://services.odata.org/northwind/northwind.svc/

Başka bir denemeden içeri aktarma

Bazen bir denemeden ara bir sonuç almak ve bunu başka bir denemenin parçası olarak kullanmak isteyebilirsiniz. Bunu yapmak için modülü veri kümesi olarak kaydedersiniz:

  1. Veri kümesi olarak kaydetmek istediğiniz modülün çıktısına tıklayın.
  2. Veri Kümesi Olarak Kaydet'e tıklayın.
  3. İstendiğinde, veri kümesini kolayca tanımlamanızı sağlayacak bir ad ve açıklama girin.
  4. Tamam onay işaretine tıklayın.

Kaydetme işlemi tamamlandığında, veri kümesi çalışma alanınızdaki herhangi bir denemede kullanılabilir. Bunu modül paletindeki Kayıtlı Veri Kümeleri listesinde bulabilirsiniz.

Sonraki adımlar

Veri İçeri ve Veri Dışarı Aktarma modüllerini kullanan Machine Learning Studio (klasik) web hizmetlerini dağıtma