Verileri İçeri Aktarma
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning taşıma hakkındaki bilgilere bakın.
- Azure Machine Learning hakkında daha fazla bilgi edinin.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Web'de dış kaynaklardan veri yükler; Tablolar, bloblar ve SQL veritabanları gibi Azure'daki çeşitli bulut tabanlı depolama biçimlerinden ve şirket içi SQL Server veritabanlarından
Kategori: Veri Girişi ve Çıkışı
Not
Şunlar için geçerlidir: yalnızca Machine Learning Studio (klasik)
Benzer sürükle ve bırak modülleri de Azure Machine Learning tasarımcısında kullanılabilir.
Modüle genel bakış
Bu makalede, mevcut bulut veri hizmetlerinden bir makine öğrenmesi denemesine veri yüklemek için Machine Learning Studio'da (klasik) Verileri İçeri Aktarma modülünün nasıl kullanılacağı açıklanmaktadır.
Modülde artık bir depolama seçeneği belirlemenize ve tüm seçenekleri hızlı bir şekilde yapılandırmak için mevcut abonelikler ve hesaplar arasından seçim yapmanıza yardımcı olacak bir sihirbaz bulunur. Mevcut bir veri bağlantısını düzenlemeniz mi gerekiyor? Sorun değil; sihirbaz, sıfırdan yeniden başlamanız gerekmemesi için önceki tüm yapılandırma ayrıntılarını yükler.
İstediğiniz verileri tanımlayıp kaynağa bağlandıktan sonra Verileri İçeri Aktar, içerdiği değerlere göre her sütunun veri türünü çıkarsar ve verileri Machine Learning Studio (klasik) çalışma alanınıza yükler. Verileri İçeri Aktar'ın çıkışı, herhangi bir denemeyle kullanılabilen bir veri kümesidir.
Önemli
Şu anda desteklenen depolama hesabı türleriyle ilgili sınırlamalar vardır. Daha fazla bilgi için bkz. Teknik Notlar.
Kaynak verileriniz değişirse, Verileri İçeri Aktar'ı yeniden çalıştırarak veri kümesini yenileyebilir ve yeni veriler ekleyebilirsiniz. Ancak, denemeyi her çalıştırdığınızda kaynaktan yeniden okumak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin. Bu seçenek belirlendiğinde modül, denemenin daha önce aynı kaynak ve aynı giriş seçenekleri kullanılarak çalıştırılıp çalıştırılmadığını denetler. Önceki bir çalıştırma bulunursa, verileri kaynaktan yeniden yüklemek yerine önbellekteki veriler kullanılır.
Not
Bu modül daha önce Okuyucu olarak adlandırıldı. Okuyucu modülünü daha önce bir denemede kullandıysanız, denemeyi yenilediğinizde verileri içeri aktarma olarak yeniden adlandırılır.
Veri kaynakları
Verileri İçeri Aktarma modülü aşağıdaki veri kaynaklarını destekler. Ayrıntılı yönergeler ve her veri kaynağını kullanma örnekleri için bağlantılara tıklayın.
Verilerinizi nasıl veya nerede depolamanız gerektiğini bilmiyorsanız, veri bilimi sürecindeki yaygın veri senaryolarına yönelik şu kılavuza bakın: Machine Learning gelişmiş analiz senaryoları.
Veri kaynağı | Ile kullanma |
---|---|
HTTP aracılığıyla Web URL'si | HTTP kullanan ve CSV, TSV, ARFF veya SvmLight biçimlerinde sağlanan bir web URL'sinde barındırılan verileri alma |
Hive Sorgusu | Hadoop'taki dağıtılmış depolama alanından veri alın. HiveQL dilini kullanarak istediğiniz verileri belirtirsiniz |
Azure SQL Veritabanı | Azure SQL Veritabanı veya Azure SQL Data Warehouse'dan veri alma |
Azure Tablosu | Azure tablo hizmetinde depolanan verileri alma |
Azure Blob Depolama'dan içeri aktarma | Azure blob hizmetinde depolanan verileri alma |
Veri Akışı Sağlayıcıları | OData biçiminde akış olarak kullanıma sunulan verileri alma |
Şirket İçi SQL Server Veritabanından İçeri Aktarma | Microsoft Veri Yönetimi Gateway kullanarak şirket içi SQL Server veritabanından veri alma |
Azure Cosmos DB | Azure Cosmos DB'de JSON biçiminde depolanan verileri alın. |
İpucu
Verileri JSON biçiminde içeri aktarmanız mı gerekiyor? Hem R hem de Python REST API'leri destekler, bu nedenle verilerinizi ayrıştırmak ve Azure ML veri kümesi olarak kaydetmek için Python Betiği Yürütme veya R Betiği Yürütme modüllerini kullanın.
İsterseniz Azure Cosmos DB'den içeri aktar seçeneğini kullanarak verilerinizi okumak için MongoDB dahil olmak üzere birden çok JSON deposunu destekleyen CosmosDB için SQL DB API'sini de kullanabilirsiniz. Daha fazla bilgi için bkz. Azure Cosmos DB'den içeri aktarma.
İçeri Aktarma Verilerini kullanma
Denemenize Verileri İçeri Aktarma modülünü ekleyin. Bu modülü Studio'daki Veri Girişi ve Çıktı kategorisinde (klasik) bulabilirsiniz.
Veri kaynağını sihirbaz kullanarak yapılandırmak için Veri İçeri Aktarma Sihirbazını Başlat'a tıklayın.
Sihirbaz hesap adını ve kimlik bilgilerini alır ve diğer seçenekleri yapılandırmanıza yardımcı olur. Mevcut bir yapılandırmayı düzenliyorsanız, önce geçerli değerleri yükler.
Sihirbazı kullanmak istemiyorsanız Veri kaynağı'na tıklayın ve okuduğunuz bulut tabanlı depolama türünü seçin.
Ek ayarlar, seçtiğiniz depolamanın türüne ve depolama alanının güvenli olup olmamasına bağlıdır. Hesap adını, dosya türünü veya kimlik bilgilerini sağlamanız gerekebilir. Bazı kaynaklar kimlik doğrulaması gerektirmez; diğer kullanıcılar için hesap adını, anahtarı veya kapsayıcı adını bilmeniz gerekebilir.
Ayrıntılar için Veri kaynakları listesine bakın.
Veri kümesini arka arkaya çalıştırmalarda yeniden kullanmak üzere önbelleğe almak istiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini belirleyin.
Modül parametrelerinde başka bir değişiklik yapılmadığını varsayarsak, deneme verileri yalnızca modül ilk çalıştırıldığında yükler ve ardından veri kümesinin önbelleğe alınmış bir sürümünü kullanır.
Denemeyi her çalıştırdığınızda verileri yeniden yüklemeniz gerekiyorsa bu seçeneğin seçimini kaldırın.
Denemeyi çalıştırın.
Verileri İçeri Aktar, verileri Studio'ya (klasik) yüklediğinde, içerdiği değerlere (sayısal veya kategorik) göre her sütunun veri türünü çıkarsar.
Üst bilgi varsa, çıktı veri kümesinin sütunlarını adlandırmak için üst bilgi kullanılır.
Verilerde hiç sütun başlığı yoksa, sütun1, sütun2 biçimi kullanılarak yeni sütun adları oluşturulur,... ,coln.
Sonuçlar
İçeri aktarma tamamlandığında, çıktı veri kümesine tıklayın ve verilerin başarıyla içeri aktarılıp aktarılamadığını görmek için Görselleştir'i seçin.
Deneme her çalıştırıldığında yeni bir veri kümesini içeri aktarmak yerine verileri yeniden kullanmak üzere kaydetmek istiyorsanız çıkışa sağ tıklayın ve Veri Kümesi Olarak Kaydet'i seçin. Veri kümesi için bir ad seçin. Kaydedilen veri kümesi, kaydetme sırasında verileri korur ve denemedeki veri kümesi değişse bile deneme yeniden çalıştırıldığında veriler güncelleştirilmez. Bu, verilerin anlık görüntülerini almak için kullanışlı olabilir.
Verileri içeri aktardıktan sonra modelleme ve analiz için bazı ek hazırlıklar gerekebilir:
Verileri Özetleme veya İşlem Temel İstatistikleri'ni kullanarak verilerin istatistiksel özetlerini oluşturun.
Sütun adlarını değiştirmek, bir sütunu farklı bir veri türü olarak işlemek veya bazı sütunların etiket veya özellik olduğunu belirtmek için Meta Verileri Düzenle'yi kullanın.
Dönüştürme veya modellemede kullanılacak sütunların bir alt kümesini seçmek için Veri Kümesindeki Sütunları Seç'i kullanın. Dönüştürülen veya kaldırılan sütunlar , Sütun Ekleme modülü veya Verileri Birleştirme modülü kullanılarak kolayca özgün veri kümesine yeniden eklenebilir.
Veri kümesini bölmek, örnekleme yapmak veya ilk n satırı almak için Bölümle ve Örnek'i kullanın.
SQL deyimlerini kullanarak verileri toplamak, filtrelemek veya dönüştürmek için SQL Dönüşümü Uygula'yı kullanın.
Metin sütunlarını temizlemek ve yeni metin özellikleri oluşturmak için şu modülleri kullanın:
- Metni Ön İşleme
- Metinden N-Gram Özelliklerini Ayıklama
- Adlandırılmış Varlık Tanıma
- nltk tabanlı özel NLP uygulamak için Python Betiği yürütür.
Teknik notlar
Bu bölümde , Verileri İçeri Aktarma modülüyle ilgili bilinen sorunların listesinin yanı sıra kaynak türüne özgü olmayan bazı genel sorun giderme bilgileri sağlanır.
Desteklenen hesap türleri
Azure sık sık yeni hizmetler veya yeni depolama türleri yayımlar; ancak, yeni hesap türleri desteği Machine Learning Studio'da (klasik) uygulanırken genellikle bir gecikme olur.
Şu anda Machine Learning alanlar arası yedekli depolama (ZRS) kullananlar dışında tüm genel amaçlı depolama hesaplarını destekler.
Yerel olarak yedekli depolama (LRS) ve coğrafi olarak yedekli depolama seçenekleri desteklenir.
Blok blobları desteklenir ancak Ekleme blobları desteklenmez.
Yaygın sorular ve sorunlar
Bu bölümde bilinen bazı sorunlar, sık sorulan sorular ve geçici çözümler açıklanmaktadır.
Üst bilgiler tek satır olmalıdır
CSV dosyalarından içeri aktarıyorsanız, Machine Learning tek bir üst bilgi satırına izin verdiğine dikkat edin. Çok satırlı üst bilgiler ekleyemezsiniz.
İçeri aktarmada desteklenen ancak dışarı aktarılmayan özel ayırıcılar
Verileri İçeri Aktarma modülü, Avrupa'da sıklıkla kullanılan noktalı virgül (;) gibi alternatif sütun ayırıcıları kullanan verileri içeri aktarmayı destekler. Dış depolamadaki CSV dosyalarından verileri içeri aktardığınızda, kodlamalı CSV seçeneğini belirleyin ve desteklenen bir kodlama seçin.
Ancak, CSV'ye Dönüştürme modülünü kullanarak verileri dışarı aktarma için hazırlarken alternatif ayırıcılar oluşturamazsınız.
Virgül içeren dize verilerinde kötü sütun ayrımı
Sütun ayırıcı olarak belirtilebilen hemen hemen her karakter (sekmeler, boşluklar, virgüller vb.) metin alanlarında rastgele de bulunabilir. CSV'den metin içeri aktarılırken, metnin gereksiz yeni sütunlar arasında ayrılmasını önlemek için her zaman dikkatli olmanız gerekir. Büyük olasılıkla karşılaştığınız ve farklı şekillerde işlediğiniz metin işlemede sık karşılaşılan bir sorundur.
Virgül içeren bir dize verisi sütununu dışarı aktarmaya çalıştığınızda da sorunlar oluşabilir. Machine Learning, dizeleri tırnak içine alma gibi bu tür verilerin özel işlenmesini veya özel çevirisini desteklemez. Ayrıca, virgüllerin sabit karakter olarak işlenmesini sağlamak için virgülden önceki kaçış karakterlerini kullanamazsınız. Sonuç olarak, dize alanında karşılaşılan her virgül için çıkış dosyasında yeni alanlar oluşturulur.
Dışarı aktarma sorunlarını önlemek için, Dize alanlarından noktalama işaretlerini kaldırmak için Metni Ön İşle modülünü kullanın.
Karmaşık metinleri işlemek ve verilerin doğru şekilde içeri veya dışarı aktarılabilmesini sağlamak için özel R betiği veya Python betiği de kullanabilirsiniz.
UTF-8 kodlaması gerekiyor
Machine Learning UTF-8 kodlaması gerektirir. İçeri aktardığınız veriler farklı bir kodlama kullanıyorsa veya farklı bir varsayılan kodlama kullanan bir veri kaynağından dışarı aktarıldıysa, metinde çeşitli sorunlar görünebilir.
Örneğin, aşağıdaki görüntü, Excel'dan dışarı aktarılan ve ardından dosya türü ve kodlamanın dört farklı bileşimi altında Machine Learning'a aktarılan aynı çok dilli veri kümesini içerir.
Üçüncü örnek, Excel CSV biçiminde kaydederken kaybolan verileri temsil eder, çünkü o sırada doğru kodlama belirtilmedi. Bu nedenle, sorunlarla karşılaşırsanız, yalnızca içeri aktardığınız dosyayı değil, dosyanın kaynaktan doğru şekilde dışarı aktarılıp aktarılmadığını denetlemeyi unutmayın.
Veri kümesinde sütun adları yok
İçeri aktardığınız veri kümesinin sütun adları yoksa, "üst bilgi yok" seçeneklerinden birini belirttiğinizden emin olun. Bunu yaptığınızda, Verileri İçeri Aktar , Sütun1, Sütun2 vb. biçimini kullanarak varsayılan sütun adlarını ekler. Daha sonra, sütun adlarını düzeltmek için Meta Verileri Düzenle'yi kullanın.
Bir veri kümesini CSV dosyasına aktarıyorsanız, dönüştürmeden veya dışarı aktarmadan önce sütun adları eklemek için Meta Verileri Düzenle'yi kullanın.
Desteklenmeyen veri kaynakları için geçici çözümler
Listede bulunmayan bir kaynaktan veri almanız gerekiyorsa deneyebileceğiniz çeşitli geçici çözümler vardır:
Bilgisayarınızdaki bir dosyadan veri yüklemek için Studio'da Yeni (klasik) seçeneğine tıklayın, Veri Kümesi'ni ve ardından Yerel Dosyadan'ı seçin. Dosyayı bulun ve biçimi (TSV, CSV vb.) belirtin. Daha fazla bilgi için bkz. Eğitim verilerini Studio'ya (klasik) aktarma.
R veya Python kullanın. Diğer bulut veritabanlarından veri almak için uygun bir R paketiyle R Betiği Yürütme modülünü kullanabilirsiniz.
Python Betiği Yürütme modülü, çeşitli kaynaklardan verileri okumanızı ve dönüştürmenizi de sağlar. Cortana Intelligence Gallery'de Microsoft veri bilimciler tarafından bu örneklere bakın:
AWS kümelerinden veri alın. WebHCat veya HCatalog uç noktası etkin bir genel Hive kümesinde sorgu çalıştırabilirsiniz. Veya sayfa olarak yayımlayın ve Web URL'sinden okuyun.
MongoDB'dan veri alın. Azure Cosmos DB için veri geçişi yardımcı programı çok çeşitli kaynak ve biçimleri destekler. Daha fazla bilgi ve örnek için bkz. Azure Cosmos DB: Veri geçiş aracı
Daha fazla fikir ve geçici çözüm için Machine Learning forumunu veya Azure AI Galerisi'ni inceleyin.
Modül parametreleri
Her veri kaynağı farklı seçenekler kullanılarak yapılandırılmalıdır. Bu tabloda yalnızca tüm veri kaynakları için ortak olan seçenekler listelenmiştir.
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Veri kaynağı | Liste | Veri Kaynağı veya Havuz | Azure Depolama'de Blob hizmeti | Veri kaynağı HTTP, anonim HTTPS, Blob hizmeti veya Tablo hizmetindeki bir dosya, Azure'daki SQL veritabanı, Azure SQL Data Warehouse, Hive tablosu veya OData uç noktası olabilir. |
Önbelleğe alınmış sonuçları kullanma | DOĞRU/YANLIŞ | Boole | FALSE | TRUE ise modül, denemenin daha önce aynı kaynak ve aynı giriş seçeneklerini kullanarak çalışıp çalışmadığını denetler ve önceki bir çalıştırma bulunursa önbellekteki veriler kullanılır. YANLIŞ ise veya değişiklik bulunursa veriler kaynaktan yeniden yüklenir. |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri Tablosu | İndirilen verileri içeren veri kümesi |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0027 | İki nesnenin aynı boyutta olması gerektiğinde bir özel durum oluşur, ancak bunlar aynı değildir. |
Hata 0003 | Bir veya daha fazla giriş null veya boş olduğunda bir özel durum oluşur. |
Hata 0029 | Geçersiz bir URI geçirildiğinde bir özel durum oluşur. |
Hata 0030 | bir dosyayı indirmek mümkün olmadığında içinde bir özel durum oluşur. |
Hata 0002 | Belirtilen türden hedef yöntemin gerektirdiği türe bir veya daha fazla parametre ayrıştırılamadıysa veya dönüştürülemiyorsa bir özel durum oluşur. |
Hata 0009 | Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse bir özel durum oluşur. |
Hata 0048 | Bir dosyanın açılması mümkün olmadığında bir özel durum oluşur. |
Hata 0015 | Veritabanı bağlantısı başarısız olursa bir özel durum oluşur. |
Hata 0046 | Belirtilen yolda dizin oluşturmak mümkün olmadığında bir özel durum oluşur. |
Hata 0049 | Bir dosyayı ayrıştırmak mümkün olmadığında bir özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning Hata kodları.
API özel durumlarının listesi için bkz. MACHINE LEARNING REST API Hata Kodları.
Ayrıca bkz.
Veri Girişi ve Çıkışı
Veri Biçimi Dönüştürmeleri
Verileri Dışarı Aktar
A-Z Modül Listesi