Azure Machine Learning'de veri kavramları
Azure Machine Learning ile yerel bir makineden veya mevcut bulut tabanlı depolama kaynağından verileri içeri aktarabilirsiniz. Bu makalede önemli Azure Machine Learning veri kavramları açıklanmaktadır.
Veri Deposu
Azure Machine Learning veri deposu, mevcut bir Azure depolama hesabına başvuru görevi görür. Azure Machine Learning veri deposu şu avantajları sunar:
- Farklı depolama türleriyle (Blob/Dosyalar/ADLS) etkileşim kuran yaygın, kullanımı kolay bir API.
- Ekip işlemlerinde yararlı veri depolarının daha kolay bulunması.
- Kimlik bilgileri tabanlı erişim (hizmet sorumlusu/SAS/anahtar) için Azure Machine Learning veri deposu bağlantı bilgilerinin güvenliğini sağlar. Bu şekilde, bu bilgileri betiklerinize yerleştirmeniz gerekmez.
Mevcut bir Azure depolama hesabıyla veri deposu oluşturduğunuzda iki farklı kimlik doğrulama yöntemi seçeneğiniz vardır:
- Kimlik bilgisi tabanlı - hizmet sorumlusu, paylaşılan erişim imzası (SAS) belirteci veya hesap anahtarıyla veri erişiminin kimliğini doğrular. Okuyucu çalışma alanı erişimi olan kullanıcılar kimlik bilgilerine erişebilir.
- Kimlik tabanlı - Veri erişiminin kimliğini doğrulamak için Microsoft Entra kimliğinizi veya yönetilen kimliğinizi kullanın.
Bu tabloda, bir Azure Machine Learning veri deposunun oluşturabileceği Azure bulut tabanlı depolama hizmetleri özetlenmektedir. Ayrıca tabloda bu hizmetlere erişebilen kimlik doğrulama türleri özetlenmektedir:
Desteklenen depolama hizmeti | Kimlik bilgisi tabanlı kimlik doğrulaması | Kimlik tabanlı kimlik doğrulaması |
---|---|---|
Azure Blob Kapsayıcısı | ✓ | ✓ |
Azure Dosya Paylaşımı | ✓ | |
Azure Data Lake 1. Nesil | ✓ | ✓ |
Azure Data Lake 2. Nesil | ✓ | ✓ |
Veri depoları hakkında daha fazla bilgi için Bkz . Veri depoları oluşturma.
Varsayılan veri depoları
Her Azure Machine Learning çalışma alanında şu veri depolarını içeren bir varsayılan depolama hesabı (Azure depolama hesabı) vardır:
İpucu
Çalışma alanınızın kimliğini bulmak için Azure portalında çalışma alanına gidin. Ayarlar'ı genişletin ve Özellikler'i seçin. Çalışma Alanı Kimliği görüntülenir.
Veri deposu adı | Veri depolama türü | Veri depolama adı | Açıklama |
---|---|---|---|
workspaceblobstore |
Blob kapsayıcı | azureml-blobstore-{workspace-id} |
Veri yüklemelerini, iş kodu anlık görüntülerini ve işlem hattı veri önbelleğini depolar. |
workspaceworkingdirectory |
Dosya paylaşımı | code-{GUID} |
Not defterleri, işlem örnekleri ve istem akışı için verileri depolar. |
workspacefilestore |
Dosya paylaşımı | azureml-filestore-{workspace-id} |
Veri yükleme için alternatif kapsayıcı. |
workspaceartifactstore |
Blob kapsayıcı | azureml |
Ölçümler, modeller ve bileşenler gibi varlıklar için depolama. |
Veri türleri
URI (depolama konumu) bir dosyaya, klasöre veya veri tablosuna başvurabilir. Makine öğrenmesi iş girişi ve çıktı tanımı şu üç veri türünden birini gerektirir:
URI
Tekdüzen Kaynak Tanımlayıcısı (URI), yerel bilgisayarınızdaki bir depolama konumunu, Azure depolama alanını veya genel kullanıma açık http(ler) konumunu temsil eder. Bu örneklerde farklı depolama seçenekleri için URI'ler gösterilir:
Depolama konumu | URI örnekleri |
---|---|
Azure Machine Learning Veri Deposu | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Yerel bilgisayar | ./home/username/data/my_data |
Genel http(ler) sunucusu | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Blob depolama | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (2. nesil) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (1. nesil) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Azure Machine Learning işi, URI'leri işlem hedef dosya sistemine eşler. Bu eşleme, URI kullanan veya üreten bir komut için URI'nin bir dosya veya klasör gibi çalıştığı anlamına gelir. URI, Microsoft Entra Id (varsayılan) veya Yönetilen Kimliğinizle depolama hizmetlerine bağlanmak için kimlik tabanlı kimlik doğrulaması kullanır. Azure Machine Learning Veri Deposu URI'leri gizli dizileri açığa çıkarmadan kimlik tabanlı kimlik doğrulaması veya kimlik bilgisi tabanlı (örneğin, Hizmet Sorumlusu, SAS belirteci, hesap anahtarı) kimlik doğrulaması uygulayabilir.
URI, Azure Machine Learning işine giriş veya çıkış işlevi görebilir ve dört farklı mod seçeneğinden biriyle işlem hedef dosya sistemine eşlenebilir:
- Salt okunur bağlama (
ro_mount
): URI, işlem hedef dosya sistemine bağlı bir depolama konumunu temsil eder. Bağlı veri konumu yalnızca salt okunur çıkışı destekler. - Okuma-yazma bağlaması (
rw_mount
): URI, işlem hedef dosya sistemine bağlı bir depolama konumunu temsil eder. Bağlı veri konumu hem ondan okuma çıkışını hem de buna veri yazmaları destekler. - İndirme (
download
): URI, işlem hedef dosya sistemine indirilen verileri içeren bir depolama konumunu temsil eder. - Karşıya yükleme (
upload
): İşlem hedef konumuna yazılan tüm veriler URI tarafından temsil edilen depolama konumuna yüklenir .
Ayrıca, doğrudan mod ile URI'yi bir iş giriş dizesi olarak geçirebilirsiniz. Bu tabloda girişler ve çıkışlar için kullanılabilen modlar özetlemektedir:
İş Giriş veya Çıkış |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Giriş | ✓ | ✓ | ✓ | ||
Çıktı | ✓ | ✓ |
Daha fazla bilgi için bir işteki verilere erişme adresini ziyaret edin.
Veri çalışma zamanı özelliği
Azure Machine Learning üç amaçtan biri için kendi veri çalışma zamanını kullanır:
- bağlamalar/karşıya yüklemeler/indirmeler için
- depolama URI'lerini işlem hedef dosya sistemine eşlemek için
- Azure Machine Learning tablolarıyla tablosal verileri pandas/spark'a dönüştürme (
mltable
)
Azure Machine Learning veri çalışma zamanı, makine öğrenmesi görevlerinin yüksek hızı ve yüksek verimliliği için tasarlanmıştır. Şu önemli avantajları sunar:
- Rust dili mimarisi. Rust dili yüksek hız ve yüksek bellek verimliliği ile bilinir.
- Hafif; Azure Machine Learning veri çalışma zamanının diğer teknolojilere (örneğin JVM) bağımlılığı yoktur , bu nedenle çalışma zamanı işlem hedeflerine hızla yüklenir.
- Çok işlemli (paralel) veri yükleme.
- Veri getirme işlemleri, derin öğrenme işlemlerinde GPU'ların kullanımını geliştirmek için CPU'larda arka plan görevi olarak çalışır.
- Bulut depolamada sorunsuz kimlik doğrulaması.
Veri varlığı
Azure Machine Learning veri varlığı, web tarayıcısı yer işaretlerine (sık kullanılanlar) benzer. En sık kullandığınız verilere işaret eden uzun depolama yollarını (URI' ler) hatırlamak yerine, bir veri varlığı oluşturabilir ve bu varlığa kolay bir adla erişebilirsiniz.
Veri varlığı oluşturma, veri kaynağı konumuna bir başvuru ve meta verilerinin bir kopyasını da oluşturur. Veriler mevcut konumunda kaldığından, ek depolama maliyetine neden olmazsınız ve veri kaynağı bütünlüğünü riske atmazsınız. Azure Machine Learning veri depolarından, Azure Depolama'dan, genel URL'lerden veya yerel dosyalardan Veri varlıkları oluşturabilirsiniz.
Veri varlıkları hakkında daha fazla bilgi için Veri varlıkları oluşturma'yı ziyaret edin.