Azure Machine Learning'de veri kavramları

Azure Machine Learning ile yerel bir makineden veya mevcut bulut tabanlı depolama kaynağından verileri içeri aktarabilirsiniz. Bu makalede önemli Azure Machine Learning veri kavramları açıklanmaktadır.

Veri Deposu

Azure Machine Learning veri deposu, mevcut bir Azure depolama hesabına başvuru görevi görür. Azure Machine Learning veri deposu şu avantajları sunar:

  • Farklı depolama türleriyle (Blob/Dosyalar/ADLS) etkileşim kuran yaygın, kullanımı kolay bir API.
  • Ekip işlemlerinde yararlı veri depolarının daha kolay bulunması.
  • Kimlik bilgileri tabanlı erişim (hizmet sorumlusu/SAS/anahtar) için Azure Machine Learning veri deposu bağlantı bilgilerinin güvenliğini sağlar. Bu şekilde, bu bilgileri betiklerinize yerleştirmeniz gerekmez.

Mevcut bir Azure depolama hesabıyla veri deposu oluşturduğunuzda iki farklı kimlik doğrulama yöntemi seçeneğiniz vardır:

  • Kimlik bilgisi tabanlı - hizmet sorumlusu, paylaşılan erişim imzası (SAS) belirteci veya hesap anahtarıyla veri erişiminin kimliğini doğrular. Okuyucu çalışma alanı erişimi olan kullanıcılar kimlik bilgilerine erişebilir.
  • Kimlik tabanlı - Veri erişiminin kimliğini doğrulamak için Microsoft Entra kimliğinizi veya yönetilen kimliğinizi kullanın.

Bu tabloda, bir Azure Machine Learning veri deposunun oluşturabileceği Azure bulut tabanlı depolama hizmetleri özetlenmektedir. Ayrıca tabloda bu hizmetlere erişebilen kimlik doğrulama türleri özetlenmektedir:

Desteklenen depolama hizmeti Kimlik bilgisi tabanlı kimlik doğrulaması Kimlik tabanlı kimlik doğrulaması
Azure Blob Kapsayıcısı
Azure Dosya Paylaşımı
Azure Data Lake 1. Nesil
Azure Data Lake 2. Nesil

Veri depoları hakkında daha fazla bilgi için Bkz . Veri depoları oluşturma.

Varsayılan veri depoları

Her Azure Machine Learning çalışma alanında şu veri depolarını içeren bir varsayılan depolama hesabı (Azure depolama hesabı) vardır:

İpucu

Çalışma alanınızın kimliğini bulmak için Azure portalında çalışma alanına gidin. Ayarlar'ı genişletin ve Özellikler'i seçin. Çalışma Alanı Kimliği görüntülenir.

Veri deposu adı Veri depolama türü Veri depolama adı Açıklama
workspaceblobstore Blob kapsayıcı azureml-blobstore-{workspace-id} Veri yüklemelerini, iş kodu anlık görüntülerini ve işlem hattı veri önbelleğini depolar.
workspaceworkingdirectory Dosya paylaşımı code-{GUID} Not defterleri, işlem örnekleri ve istem akışı için verileri depolar.
workspacefilestore Dosya paylaşımı azureml-filestore-{workspace-id} Veri yükleme için alternatif kapsayıcı.
workspaceartifactstore Blob kapsayıcı azureml Ölçümler, modeller ve bileşenler gibi varlıklar için depolama.

Veri türleri

URI (depolama konumu) bir dosyaya, klasöre veya veri tablosuna başvurabilir. Makine öğrenmesi iş girişi ve çıktı tanımı şu üç veri türünden birini gerektirir:

Tür V2 API V1 API Canonical Senaryolar V2/V1 API Farkı
Dosya
Tek bir dosyaya başvurma
uri_file FileDataset Tek bir dosyayı okuma/yazma - dosya herhangi bir biçimde olabilir. V2 API'lerinde yeni bir tür. V1 API'lerinde dosyalar her zaman işlem hedef dosya sistemindeki bir klasöre eşlenir, bu eşleme için bir os.path.join gerekir. V2 API'lerinde tek dosya eşlenir. Bu şekilde kodunuzda bu konuma başvurabilirsiniz.
Klasör
Tek bir klasöre başvurma
uri_folder FileDataset Parquet/CSV dosyalarının bir klasörünü Pandas/Spark'ta okumanız/yazmanız gerekir.

Bir klasörde bulunan resim, metin, ses ve video dosyalarıyla derin öğrenme.
V1 API'lerinde FileDataset, bir klasörden dosya örneği alabilen ilişkili bir altyapıya sahipti. V2 API'lerinde klasör, işlem hedef dosya sistemine basit bir eşlemedir.
Table
Veri tablosuna başvurma
mltable TabularDataset Sık yapılan değişikliklere tabi olan karmaşık bir şema nesneniz var veya büyük tablosal verilerin bir alt kümesine ihtiyacınız var.

Tablolu AutoML.
V1 API'lerinde Azure Machine Learning arka planı, veri gerçekleştirme ayrıntılı planını depoladı. Sonuç olarak, TabularDataset yalnızca Azure Machine Learning çalışma alanınız varsa işe yaradı. mltable veri gerçekleştirme şemasını depolama alanınızda depolar. Bu depolama konumu, Azure Machine Learning bağlantısı kesilmiş olarak kullanabileceğiniz anlamına gelir ( örneğin, yerel olarak ve şirket içinde). V2 API'lerinde yerel işlerden uzak işlere geçiş yapmak daha kolaydır. Daha fazla bilgi için Azure Machine Learning'de tablolarla çalışma bölümünü ziyaret edin.

URI

Tekdüzen Kaynak Tanımlayıcısı (URI), yerel bilgisayarınızdaki bir depolama konumunu, Azure depolama alanını veya genel kullanıma açık http(ler) konumunu temsil eder. Bu örneklerde farklı depolama seçenekleri için URI'ler gösterilir:

Depolama konumu URI örnekleri
Azure Machine Learning Veri Deposu azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Yerel bilgisayar ./home/username/data/my_data
Genel http(ler) sunucusu https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob depolama wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (2. nesil) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (1. nesil) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Azure Machine Learning işi, URI'leri işlem hedef dosya sistemine eşler. Bu eşleme, URI kullanan veya üreten bir komut için URI'nin bir dosya veya klasör gibi çalıştığı anlamına gelir. URI, Microsoft Entra Id (varsayılan) veya Yönetilen Kimliğinizle depolama hizmetlerine bağlanmak için kimlik tabanlı kimlik doğrulaması kullanır. Azure Machine Learning Veri Deposu URI'leri gizli dizileri açığa çıkarmadan kimlik tabanlı kimlik doğrulaması veya kimlik bilgisi tabanlı (örneğin, Hizmet Sorumlusu, SAS belirteci, hesap anahtarı) kimlik doğrulaması uygulayabilir.

URI, Azure Machine Learning işine giriş veya çıkış işlevi görebilir ve dört farklı mod seçeneğinden biriyle işlem hedef dosya sistemine eşlenebilir:

  • Salt okunur bağlama (ro_mount): URI, işlem hedef dosya sistemine bağlı bir depolama konumunu temsil eder. Bağlı veri konumu yalnızca salt okunur çıkışı destekler.
  • Okuma-yazma bağlaması (rw_mount): URI, işlem hedef dosya sistemine bağlı bir depolama konumunu temsil eder. Bağlı veri konumu hem ondan okuma çıkışını hem de buna veri yazmaları destekler.
  • İndirme (download): URI, işlem hedef dosya sistemine indirilen verileri içeren bir depolama konumunu temsil eder.
  • Karşıya yükleme (upload): İşlem hedef konumuna yazılan tüm veriler URI tarafından temsil edilen depolama konumuna yüklenir .

Ayrıca, doğrudan mod ile URI'yi bir iş giriş dizesi olarak geçirebilirsiniz. Bu tabloda girişler ve çıkışlar için kullanılabilen modlar özetlemektedir:

İş
Giriş veya Çıkış
upload download ro_mount rw_mount direct
Giriş
Çıktı

Daha fazla bilgi için bir işteki verilere erişme adresini ziyaret edin.

Veri çalışma zamanı özelliği

Azure Machine Learning üç amaçtan biri için kendi veri çalışma zamanını kullanır:

  • bağlamalar/karşıya yüklemeler/indirmeler için
  • depolama URI'lerini işlem hedef dosya sistemine eşlemek için
  • Azure Machine Learning tablolarıyla tablosal verileri pandas/spark'a dönüştürme (mltable)

Azure Machine Learning veri çalışma zamanı, makine öğrenmesi görevlerinin yüksek hızı ve yüksek verimliliği için tasarlanmıştır. Şu önemli avantajları sunar:

  • Rust dili mimarisi. Rust dili yüksek hız ve yüksek bellek verimliliği ile bilinir.
  • Hafif; Azure Machine Learning veri çalışma zamanının diğer teknolojilere (örneğin JVM) bağımlılığı yoktur , bu nedenle çalışma zamanı işlem hedeflerine hızla yüklenir.
  • Çok işlemli (paralel) veri yükleme.
  • Veri getirme işlemleri, derin öğrenme işlemlerinde GPU'ların kullanımını geliştirmek için CPU'larda arka plan görevi olarak çalışır.
  • Bulut depolamada sorunsuz kimlik doğrulaması.

Veri varlığı

Azure Machine Learning veri varlığı, web tarayıcısı yer işaretlerine (sık kullanılanlar) benzer. En sık kullandığınız verilere işaret eden uzun depolama yollarını (URI' ler) hatırlamak yerine, bir veri varlığı oluşturabilir ve bu varlığa kolay bir adla erişebilirsiniz.

Veri varlığı oluşturma, veri kaynağı konumuna bir başvuru ve meta verilerinin bir kopyasını da oluşturur. Veriler mevcut konumunda kaldığından, ek depolama maliyetine neden olmazsınız ve veri kaynağı bütünlüğünü riske atmazsınız. Azure Machine Learning veri depolarından, Azure Depolama'dan, genel URL'lerden veya yerel dosyalardan Veri varlıkları oluşturabilirsiniz.

Veri varlıkları hakkında daha fazla bilgi için Veri varlıkları oluşturma'yı ziyaret edin.

Sonraki adımlar