FileDataset Sınıf
Azure Machine Learning'de kullanılacak veri depolarındaki veya genel URL'lerdeki dosya başvurularından oluşan bir koleksiyonu temsil eder.
FileDataset, veri kaynağından dosya akışlarına veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. FileDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.
FileDatasetFactory sınıfının yöntemi kullanılarak from_files bir FileDataset oluşturulur.
Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Dosya veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/filedataset-samplenotebook. .
FileDataset nesnesini başlatın.
Bu oluşturucu doğrudan çağrılmayacak. Veri kümesinin sınıfı kullanılarak FileDatasetFactory oluşturulması amaçlanmıştır.
- Devralma
-
FileDataset
Oluşturucu
FileDataset()
Açıklamalar
FileDataset, deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.
FileDataset, bu sınıfta kullanılabilen farklı alt ayar yöntemleri çağrılarak alt kümelenebilir. Alt sıfırlamanın sonucu her zaman yeni bir FileDataset'tir.
Gerçek veri yükleme işlemi, FileDataset'in verileri başka bir depolama mekanizmasına (ör. indirilen veya yerel yola bağlanan dosyalar) teslim etmesinin istenmesiyle gerçekleşir.
Yöntemler
as_cache |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun. |
as_download |
Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.
|
as_hdfs |
Modu hdfs olarak ayarlayın. Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.
|
as_mount |
Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun. Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.
|
download |
Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin. |
file_metadata |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Meta veri sütun adını belirterek dosya meta verileri ifadesini alın. Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir |
filter |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin. |
hydrate |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren. |
mount |
Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun. |
random_split |
Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün. Döndürülen ilk veri kümesi yaklaşık olarak |
skip |
Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın. |
take |
Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın. |
take_sample |
Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın. |
to_path |
Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın. |
as_cache
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
bir datacache_store ve bir veri kümesiyle eşlenmiş bir DatacacheConsumptionConfig oluşturun.
as_cache(datacache_store)
Parametreler
Name | Description |
---|---|
datacache_store
Gerekli
|
Hidrant yapmak için kullanılacak datacachestore. |
Döndürülenler
Tür | Description |
---|---|
Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi. |
as_download
Modu indirecek şekilde ayarlanmış bir DatasetConsumptionConfig oluşturun.
Gönderilen çalıştırmada, veri kümesindeki dosyalar işlem hedefindeki yerel yola indirilir. İndirme konumu bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametreler
Name | Description |
---|---|
path_on_compute
|
verilerin kullanılabilmesi için işlemdeki hedef yol. Default value: None
|
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, indirme konumu indirilen tek dosyanın yolu olur. Aksi takdirde, indirme konumu indirilen tüm dosyalar için kapsayan klasörün yolu olur.
path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.
as_hdfs
Modu hdfs olarak ayarlayın.
Gönderilen synapse çalıştırmasında, veri kümelerindeki dosyalar işlem hedefindeki yerel yola dönüştürülür. hdfs yolu bağımsız değişken değerlerinden ve işletim sistemi ortam değişkenlerinden alınabilir.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_<hash>']
as_hdfs()
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, hdfs yolu tek dosyanın yolu olur. Aksi takdirde, hdfs yolu tüm bağlı dosyalar için kapsayan klasörün yolu olur.
as_mount
Modu bağlama olarak ayarlanmış bir DatasetConsumptionConfig oluşturun.
Gönderilen çalıştırmada, veri kümelerindeki dosyalar işlem hedefindeki yerel yola bağlanır. Bağlama noktası, bağımsız değişken değerlerinden ve çalıştırma bağlamının input_datasets alanından alınabilir. Otomatik olarak bir giriş adı oluşturacağız. Özel bir giriş adı belirtmek isterseniz lütfen as_named_input yöntemini çağırın.
# Given a run submitted with dataset input like this:
dataset_input = dataset.as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametreler
Name | Description |
---|---|
path_on_compute
|
verilerin kullanılabilmesi için işlemdeki hedef yol. Default value: None
|
Açıklamalar
Veri kümesi tek bir dosyanın yolundan oluşturulduğunda, bağlama noktası bağlı tek dosyanın yolu olur. Aksi takdirde, bağlama noktası tüm bağlı dosyalar için kapsayan klasörün yolu olacaktır.
path_on_compute bir / ile başlarsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, çalışma dizinine göre göreli bir yol olarak değerlendirilir. Mutlak bir yol belirttiyseniz, lütfen işin bu dizine yazma izni olduğundan emin olun.
download
Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını indirin.
download(target_path=None, overwrite=False, ignore_not_found=False)
Parametreler
Name | Description |
---|---|
target_path
Gerekli
|
Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir. |
overwrite
Gerekli
|
Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur. |
ignore_not_found
Gerekli
|
Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer False'tur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur. |
Döndürülenler
Tür | Description |
---|---|
İndirilen her dosya için bir dosya yolu dizisi döndürür. |
Açıklamalar
target_path ile başlıyorsa, mutlak yol olarak değerlendirilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak değerlendirilir.
file_metadata
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Meta veri sütun adını belirterek dosya meta verileri ifadesini alın.
Desteklenen dosya meta veri sütunları Size, LastModifiedTime, CreationTime, Extension ve CanSeek'tir
file_metadata(col)
Parametreler
Name | Description |
---|---|
col
Gerekli
|
Sütunun adı |
Döndürülenler
Tür | Description |
---|---|
<xref:azureml.dataprep.api.expression.RecordFieldExpression>
|
Belirtilen sütundaki değeri alan bir ifade döndürür. |
filter
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.
filter(expression)
Parametreler
Name | Description |
---|---|
expression
Gerekli
|
<xref:azureml.dataprep.api.expression.Expression>
Değerlendirilecek ifade. |
Döndürülenler
Tür | Description |
---|---|
Değiştirilen veri kümesi (kaydı kaldırılmış). |
Açıklamalar
İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.
(dataset.file_metadata('Size') > 10000) & (dataset.file_metadata('CanSeek') == True)
dataset.file_metadata('Extension').starts_with('j')
hydrate
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Veri kümesini datacache_store belirtilen istenen çoğaltmalara nemlendiren.
hydrate(datacache_store, replica_count=None)
Parametreler
Name | Description |
---|---|
datacache_store
Gerekli
|
Hidrant yapmak için kullanılacak datacachestore. |
replica_count
Gerekli
|
<xref:Int>, <xref:optional>
Hidrat için çoğaltma sayısı. |
Döndürülenler
Tür | Description |
---|---|
Datacache'in çalıştırmada nasıl gerçekleştirilmesi gerektiğini açıklayan yapılandırma nesnesi. |
mount
Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.
mount(mount_point=None, **kwargs)
Parametreler
Name | Description |
---|---|
mount_point
Gerekli
|
Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz. |
Döndürülenler
Tür | Description |
---|---|
<xref:MountContext>: <xref:the> <xref:context> <xref:manager.> <xref:Upon> <xref:entering> <xref:the> <xref:context> <xref:manager>, <xref:the> <xref:dataflow> <xref:will> <xref:be> <xref:mounted> <xref:to> <xref:the> <xref:mount_point.> <xref:Upon> exit, <xref:it> <xref:will> <xref:remove> <xref:the> mount <xref:point> <xref:and> clean <xref:up> <xref:the> <xref:daemon> <xref:process> <xref:used> <xref:to> mount <xref:the> <xref:dataflow.>
|
Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür. |
Açıklamalar
Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürülür. Bağlamak için bağlam yöneticisini girmeniz ve bağlamayı kaldırmak için bağlam yöneticisinden çıkmanız gerekir.
Bağlama yalnızca libfuse yerel paketin yüklü olduğu Unix veya Unix benzeri işletim sistemlerinde desteklenir. Docker kapsayıcısının içinde çalışıyorsanız docker kapsayıcısı –privileged bayrağıyla veya –cap-add SYS_ADMIN –device /dev/fuse ile başlatılmalıdır.
datastore = Datastore.get(workspace, 'workspaceblobstore')
dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
with dataset.mount() as mount_context:
# list top level mounted files and folders in the dataset
os.listdir(mount_context.mount_point)
# You can also use the start and stop methods
mount_context = dataset.mount()
mount_context.start() # this will mount the file streams
mount_context.stop() # this will unmount the file streams
target_path ile başlıyorsa, mutlak yol olarak kabul edilir. / ile başlamıyorsa, geçerli çalışma dizinine göre göreli bir yol olarak kabul edilir.
random_split
Veri kümesindeki dosya akışlarını rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.
Döndürülen ilk veri kümesi yaklaşık olarak percentage
toplam dosya başvurusu sayısını, ikinci veri kümesi ise kalan dosya başvurularını içerir.
random_split(percentage, seed=None)
Parametreler
Name | Description |
---|---|
percentage
Gerekli
|
Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır. |
seed
Gerekli
|
Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum. |
Döndürülenler
Tür | Description |
---|---|
Bölmeden sonra iki veri kümesini temsil eden yeni FileDataset nesnelerinin bir demetini döndürür. |
skip
Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarını atlayın.
skip(count)
Parametreler
Name | Description |
---|---|
count
Gerekli
|
Atlana dosya akışlarının sayısı. |
Döndürülenler
Tür | Description |
---|---|
Dosya akışları atlanmış bir veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür. |
take
Belirtilen sayıya göre veri kümesinin en üstünden dosya akışlarının bir örneğini alın.
take(count)
Parametreler
Name | Description |
---|---|
count
Gerekli
|
Alınacak dosya akışlarının sayısı. |
Döndürülenler
Tür | Description |
---|---|
Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür. |
take_sample
Veri kümesinde belirtilen olasılığa göre rastgele bir dosya akışı örneği alın.
take_sample(probability, seed=None)
Parametreler
Name | Description |
---|---|
probability
Gerekli
|
Bir dosya akışının örne dahil edilme olasılığı. |
seed
Gerekli
|
Rastgele oluşturucu için kullanılacak isteğe bağlı bir tohum. |
Döndürülenler
Tür | Description |
---|---|
Örneklenen veri kümesini temsil eden yeni bir FileDataset nesnesi döndürür. |
to_path
Veri kümesi tarafından tanımlanan her dosya akışı için dosya yollarının listesini alın.
to_path()
Döndürülenler
Tür | Description |
---|---|
Bir dosya yolu dizisi döndürür. |
Açıklamalar
Dosya yolları, dosya akışları indirildiğinde veya bağlandığında yerel dosyaların göreli yollarıdır.
Veri kümesini oluşturmak için veri kaynağının nasıl belirtildiğine bağlı olarak dosya yollarından ortak bir ön ek kaldırılır. Örnek:
datastore = Datastore.get(workspace, 'workspaceblobstore')
dataset = Dataset.File.from_files((datastore, 'animals/dog/year-*/*.jpg'))
print(dataset.to_path())
# ['year-2018/1.jpg'
# 'year-2018/2.jpg'
# 'year-2019/1.jpg']
dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/green-small/*.csv')
print(dataset.to_path())
# ['/green_tripdata_2013-08.csv']