Azure Machine Learning stüdyosu ile verilere bağlanma
Bu makalede, Azure Machine Learning stüdyosu ile verilerinize nasıl erişebilirsiniz gösterilmektedir. Azure Machine Learning veri depoları ile Azure depolama hizmetlerindeki verilerinize bağlanın. Ardından, Azure Machine Learning veri kümeleriyle ML iş akışı görevleri için bu verileri paketleyin.
Bu tablo veri depolarının ve veri kümelerinin avantajlarını tanımlar ve özetler.
Veri depolarının ve veri kümelerinin genel Azure Machine Learning veri erişimi iş akışına uygun olduğu yerleri öğrenmek için Verilere güvenli bir şekilde erişme bölümünü ziyaret edin.
Azure Machine Learning Python SDK'sı ve kod öncelikli deneyim hakkında daha fazla bilgi için bkz:
- Veri depoları ile Azure depolama hizmetlerine bağlanma
- Azure Machine Learning veri kümeleri oluşturma
Önkoşullar
Azure aboneliği. Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun. Azure Machine Learning'in ücretsiz veya ücretli sürümünü deneyin
Azure Machine Learning çalışma alanı. Çalışma alanı kaynakları oluşturma
- Çalışma alanı oluşturduğunuzda, bir Azure blob kapsayıcısı ve Azure dosya paylaşımı otomatik olarak çalışma alanına veri deposu olarak kaydedilir. Sırasıyla ve
workspacefilestore
olarak adlandırılırlarworkspaceblobstore
. Yeterli blob depolama kaynakları için ,workspaceblobstore
zaten kullanım için yapılandırılmış olan varsayılan veri deposu olarak ayarlanır. Daha fazla blob depolama kaynağına ihtiyacınız varsa desteklenen depolama türüne sahip bir Azure depolama hesabına ihtiyacınız vardır.
- Çalışma alanı oluşturduğunuzda, bir Azure blob kapsayıcısı ve Azure dosya paylaşımı otomatik olarak çalışma alanına veri deposu olarak kaydedilir. Sırasıyla ve
Veri depoları oluşturma
Bu Azure depolama çözümlerinden veri depoları oluşturabilirsiniz. Desteklenmeyen depolama çözümleri için ve ML denemeleri sırasında veri çıkış maliyetlerinden tasarruf etmek için verilerinizi desteklenen bir Azure depolama çözümüne taşımanız gerekir. Veri depoları hakkında daha fazla bilgi için bu kaynağı ziyaret edin.
Kimlik bilgileri tabanlı erişim veya kimlik tabanlı erişim ile veri depoları oluşturabilirsiniz.
Azure Machine Learning stüdyosu ile yeni bir veri deposu oluşturun.
Önemli
Veri depolama hesabınız bir sanal ağda bulunuyorsa, stüdyonun verilerinize erişebildiğinden emin olmak için ek yapılandırma adımları gerekir. Uygun yapılandırma adımları hakkında daha fazla bilgi için Ağ yalıtımı ve gizlilik konularını ziyaret edin.
- Azure Machine Learning stüdyosu oturum açın.
- Sol bölmede Varlıklar'ın altında Veri'yi seçin.
- Üst kısımda Veri depoları'nı seçin.
- +Oluştur'u seçin.
- Yeni bir veri deposu oluşturmak ve kaydetmek için formu doldurun. Form, Azure depolama türü ve kimlik doğrulama türü seçimlerinize göre kendisini akıllı bir şekilde güncelleştirir. Bu formu doldurmak için gereken kimlik doğrulama kimlik bilgilerini nerede bulacağınız hakkında daha fazla bilgi için depolama erişimi ve izinler bölümünü ziyaret edin.
Bu ekran görüntüsünde Azure blob veri deposu oluşturma paneli gösterilmektedir:
Veri varlıkları oluşturma
Veri deposu oluşturduktan sonra verilerinizle etkileşim kurmak için bir veri kümesi oluşturun. Veri kümeleri, verilerinizi makine öğrenmesi görevleri (örneğin, eğitim) için gevşek olarak değerlendirilen bir tüketilebilir nesne olarak paketler. Veri kümeleri hakkında daha fazla bilgi için Azure Machine Learning veri kümeleri oluşturma bölümünü ziyaret edin.
Veri kümelerinin iki türü vardır: FileDataset ve TabularDataset. FileDatasets , tek veya birden çok dosyaya ya da genel URL'lere başvurular oluşturur. TabularDatasets verileri tablo biçiminde temsil eder . Şu kaynaktan TabularDatasets oluşturabilirsiniz:
- .csv
- .tsv
- .parke
- dosyaları ve SQL sorgu sonuçlarından .json.
Aşağıdaki adımlarda, Azure Machine Learning stüdyosu'de bir veri kümesinin nasıl oluşturulacağı açıklanmaktadır.
Not
Azure Machine Learning stüdyosu aracılığıyla oluşturulan veri kümeleri otomatik olarak çalışma alanına kaydedilir.
Sol gezinti bölmesindeki Varlıklar'ın altında Veri'yi seçin. Veri varlıkları sekmesinde Oluştur'u seçin
Veri varlığına bir ad ve isteğe bağlı bir açıklama verin. Ardından, Tür altında Dosya veya Tablosal olarak bir Veri kümesi türü seçin.
Bu ekran görüntüsünde gösterildiği gibi Veri kaynağı bölmesi açılır:
Veri kaynağınız için farklı seçenekleriniz vardır. Azure'da zaten depolanan veriler için "Azure depolamadan" seçeneğini belirleyin. Yerel sürücünüzden veri yüklemek için "Yerel dosyalardan" seçeneğini belirleyin. Genel bir web konumunda depolanan veriler için "Web dosyalarından" öğesini seçin. Ayrıca bir SQL veritabanından veya Azure Açık Veri Kümelerinden veri varlığı oluşturabilirsiniz.
Dosya seçimi adımında Azure'ın verilerinizi depolaması gereken konumu ve kullanmak istediğiniz veri dosyalarını seçin.
- Verileriniz bir sanal ağdaysa atlama doğrulamasını etkinleştirin. Sanal ağ yalıtımı ve gizlilik hakkında daha fazla bilgi edinin.
Veri varlığınızın veri ayrıştırma ayarlarını ve şemasını ayarlamak için adımları izleyin. Ayarlar dosya türüne göre önceden doldurulur ve veri varlığı oluşturmadan önce ayarlarınızı daha fazla yapılandırabilirsiniz.
Gözden Geçir adımına ulaştığınızda son sayfada Oluştur'u seçin
Veri önizleme ve profil
Veri kümenizi oluşturduktan sonra önizlemeyi ve profili stüdyoda görüntüleyebildiğinizi doğrulayın:
- Azure Machine Learning stüdyosu oturum açın
- Sol gezinti bölmesindeki Varlıklar'ın altında Veri'yi seçin.
- Görüntülemek istediğiniz veri kümesinin adını seçin.
- Araştır sekmesini seçin.
- Önizleme sekmesini seçin.
- Profil sekmesini seçin.
Veri kümenizin ML'ye hazır olup olmadığını doğrulamak için veri kümenizdeki özet istatistikleri kullanabilirsiniz. Sayısal olmayan sütunlar için bu istatistikler yalnızca temel istatistikleri içerir; örneğin, min, max ve hata sayısı. Sayısal sütunlar istatistiksel anları ve tahmini nicelleri sunar.
Azure Machine Learning veri kümesi veri profili şunları içerir:
Not
Ilgisiz türleri olan özellikler için boş girdiler görüntülenir.
İstatistik | Açıklama |
---|---|
Özellik | Özetlenmiş sütun adı |
Profil | Çıkarsanan türe göre satır içi görselleştirme. Dizeler, boole değerleri ve tarihlerin değer sayıları vardır. Ondalıklar (sayısallar) yaklaşık histogramlara sahiptir. Bu görselleştirmeler, veri dağılımını hızlı bir şekilde anlama imkanı sunar |
Tür dağıtımı | Sütun içindeki türlerin satır içi değer sayısı. Null değerler kendi türleridir, bu nedenle bu görselleştirme tek veya eksik değerleri algılayabilir |
Tür | Çıkarsanan sütun türü. Olası değerler şunlardır: dizeler, boole değerleri, tarihler ve ondalıklar |
Min | Sütunun en düşük değeri. Türü doğası gereği sıralamaya sahip olmayan özellikler için boş girdiler görüntülenir (örneğin, boole değerleri) |
Maks | Sütunun en büyük değeri. |
Sayı | Sütundaki eksik ve izinsiz girişlerin toplam sayısı |
Eksik sayı değil | Sütunda eksik olmayan girdilerin sayısı. Boş dizeler ve hatalar değer olarak değerlendirilir, bu nedenle "eksik sayıya" katkıda bulunmaz. |
Dağılım Dilimleri | Veri dağılımının bir hissini sağlamak için her nicelde yaklaşık değerler |
Ortalama | Sütunun aritmetik ortalaması veya ortalaması |
Standart sapma | Bu sütunun verileri için dağılım miktarının veya varyasyonun ölçüsü |
Fark | Bu sütunun verilerinin ortalama değerinden ne kadar yayıldığını ölçme |
Dengesizlik | Bu sütunun verilerinin normal bir dağılımdan farkını ölçer |
Basık | Normal dağılımla karşılaştırıldığında bu sütunun verilerinin "kuyruk olma" derecesini ölçer |
Depolama erişimi ve izinleri
Azure depolama hizmetinize güvenli bir şekilde bağlandığınızdan emin olmak için Azure Machine Learning, ilgili veri depolama alanına erişme izninizin olmasını gerektirir. Bu erişim, veri depolarını kaydetmek için kullanılan kimlik doğrulama kimlik bilgilerine bağlıdır.
Sanal ağ
Veri depolama hesabınız bir sanal ağdaysa, Azure Machine Learning'in verilerinize erişimi olduğundan emin olmak için ek yapılandırma adımları gerekir. Veri deponuzu oluştururken ve kaydederken uygun yapılandırma adımlarının uygulandığından emin olmak için bkz. Sanal ağda Azure Machine Learning stüdyosu kullanma.
Erişim doğrulaması
Uyarı
Depolama hesaplarına kiracılar arası erişim desteklenmez. Senaryonuz için kiracılar arası erişim gerekiyorsa, özel kod çözümüyle ilgili yardım için lütfen adresinden amldatasupport@microsoft.com Azure Machine Learning Veri Desteği ekip diğer adına ulaşın.
İlk veri deposu oluşturma ve kayıt işleminin bir parçası olarak Azure Machine Learning, temel depolama hizmetinin mevcut olduğunu ve kullanıcı tarafından sağlanan sorumlunun (kullanıcı adı, hizmet sorumlusu veya SAS belirteci) belirtilen depolama alanına erişimi olduğunu otomatik olarak doğrular.
Veri deposu oluşturulduktan sonra bu doğrulama yalnızca temel alınan depolama kapsayıcısına erişim gerektiren yöntemler için gerçekleştirilir. Veri deposu nesneleri her alındığında doğrulama gerçekleştirilmiyor . Örneğin, veri deponuzdan dosya indirdiğinizde doğrulama gerçekleşir. Ancak, varsayılan veri deponuzu değiştirmek istiyorsanız doğrulama gerçekleşmez.
Temel depolama hizmetine erişiminizin kimliğini doğrulamak için, oluşturmak istediğiniz veri deposu türüne göre hesap anahtarınızı, paylaşılan erişim imzalarınızı (SAS) belirteçlerini veya hizmet sorumlunuzu sağlayın. Depolama türü matrisi , her veri deposu türüne karşılık gelen desteklenen kimlik doğrulama türlerini listeler.
Hesap anahtarı, SAS belirteci ve hizmet sorumlusu bilgilerini Azure portalınızda bulabilirsiniz.
Kimlik doğrulaması için bir hesap anahtarı almak için sol bölmede Depolama Hesapları'nı seçin ve kaydetmek istediğiniz depolama hesabını seçin
- Genel Bakış sayfasında hesap adı, kapsayıcı ve dosya paylaşımı adı gibi bilgiler sağlanır.
- Sol gezinti bölmesindeki Güvenlik + ağ düğümünü genişletin
- Erişim anahtarları'nı seçin
- Kullanılabilir anahtar değerleri Hesap anahtarı değerleri olarak görev görür
Kimlik doğrulaması için SAS belirteci almak için sol bölmede Depolama Hesapları'nı seçin ve istediğiniz depolama hesabını seçin
- Erişim anahtarı değeri almak için sol gezinti bölmesindeki Güvenlik + ağ düğümünü genişletin
- Paylaşılan erişim imzası'nın seçilmesi
- SAS değerini oluşturmak için işlemi tamamlayın
Kimlik doğrulaması için hizmet sorumlusu kullanmak için Uygulama kayıtları gidin ve kullanmak istediğiniz uygulamayı seçin.
- İlgili Genel Bakış sayfası, kiracı kimliği ve istemci kimliği gibi gerekli bilgileri içerir.
Önemli
- Bir Azure Depolama hesabının (hesap anahtarı veya SAS belirteci) erişim anahtarlarınızı değiştirmek için, yeni kimlik bilgilerini hem çalışma alanınızla hem de buna bağlı veri depolarıyla eşitlediğinizden emin olun. Daha fazla bilgi için güncelleştirilmiş kimlik bilgilerinizi eşitleme adresini ziyaret edin.
- Aynı ada sahip bir veri deposunun kaydını kaldırıp yeniden kaydederseniz ve bu yeniden kayıt başarısız olursa, çalışma alanınız için Azure Key Vault geçici silme etkinleştirilmemiş olabilir. Çalışma alanınız tarafından oluşturulan anahtar kasası örneği için geçici silme varsayılan olarak etkindir, ancak mevcut bir anahtar kasasını kullandıysanız veya Ekim 2020'ye kadar bir çalışma alanı oluşturduysanız etkinleştirilmeyebilir. Geçici silmeyi etkinleştirme hakkında daha fazla bilgi için Mevcut bir anahtar kasası için Geçici Silme'yi açma adresini ziyaret edin.
İzinler
Azure blob kapsayıcısı ve Azure Data Lake 2. Nesil depolama için kimlik doğrulama kimlik bilgilerinizin Depolama Blob Veri Okuyucusu erişimine sahip olduğundan emin olun. Depolama Blobu Veri Okuyucusu hakkında daha fazla bilgi edinin. Varsayılan olarak, bir hesap SAS belirtecinin izinleri yoktur.
Veri okuma erişimi için kimlik doğrulama kimlik bilgilerinizin kapsayıcılar ve nesneler için en az liste ve okuma izinlerine sahip olması gerekir.
Veri yazma erişimi için yazma ve ekleme izinleri de gereklidir.
Veri kümeleriyle eğitme
ML modellerini eğitmak için makine öğrenmesi denemelerinizde veri kümelerinizi kullanın. Veri kümeleriyle eğitim hakkında daha fazla bilgi edinin.
Sonraki adımlar
TabularDatasets ve otomatik makine öğrenmesi ile eğitime adım adım bir örnek
Daha fazla veri kümesi eğitim örneği için örnek not defterlerine bakın