DatasetConsumptionConfig Klass
Representerar hur du levererar datauppsättningen till ett beräkningsmål.
Representerar hur du levererar datauppsättningen till beräkningsmålet.
- Arv
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parametrar
Name | Description |
---|---|
name
Obligatorisk
|
Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet. |
dataset
Obligatorisk
|
Den datauppsättning som ska användas i körningen. |
mode
|
Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:
Standardvärde: direct
|
path_on_compute
|
Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Använd Standardvärde: None
|
name
Obligatorisk
|
Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet. |
dataset
Obligatorisk
|
Dataset eller
PipelineParameter eller
tuple(Workspace, str) eller
tuple(Workspace, str, str) eller
OutputDatasetConfig
Datauppsättningen som ska levereras, som ett datauppsättningsobjekt, pipelineparameter som matar in en datauppsättning, en tupplar (arbetsyta, datauppsättningsnamn) eller en tupplar av (arbetsyta, datauppsättningens namn, datauppsättningsversion). Om endast ett namn anges använder DatasetConsumptionConfig den senaste versionen av datauppsättningen. |
mode
Obligatorisk
|
Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:
|
path_on_compute
Obligatorisk
|
Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Vi rekommenderar att du anropar tabular_dataset.to_path för att se mappstrukturen för utdata. |
Metoder
as_download |
Ställ in läget för nedladdning. I den skickade körningen laddas filer i datauppsättningen ned till den lokala sökvägen på beräkningsmålet. Nedladdningsplatsen kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.
|
as_hdfs |
Ställ in läget på hdfs. I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.
|
as_mount |
Ställ in läget på montering. I den skickade körningen monteras filer i datauppsättningarna på den lokala sökvägen på beräkningsmålet. Monteringspunkten kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.
|
as_download
Ställ in läget för nedladdning.
I den skickade körningen laddas filer i datauppsättningen ned till den lokala sökvägen på beräkningsmålet. Nedladdningsplatsen kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parametrar
Name | Description |
---|---|
path_on_compute
|
Målsökvägen för beräkningen som data ska vara tillgängliga på. Standardvärde: None
|
Kommentarer
När datauppsättningen skapas från sökvägen till en enda fil är nedladdningsplatsen sökvägen till den enda nedladdade filen. Annars är nedladdningsplatsen sökvägen till den omslutande mappen för alla nedladdade filer.
Om path_on_compute börjar med ett /, behandlas det som en absolut sökväg. Om den inte börjar med en /, behandlas den som en relativ sökväg i förhållande till arbetskatalogen. Om du har angett en absolut sökväg kontrollerar du att jobbet har behörighet att skriva till den katalogen.
as_hdfs
Ställ in läget på hdfs.
I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Kommentarer
När datauppsättningen skapas från sökvägen till en enskild fil är hdfs-sökvägen sökvägen till den enskilda filen. Annars är hdfs-sökvägen sökvägen till den omslutande mappen för alla monterade filer.
as_mount
Ställ in läget på montering.
I den skickade körningen monteras filer i datauppsättningarna på den lokala sökvägen på beräkningsmålet. Monteringspunkten kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parametrar
Name | Description |
---|---|
path_on_compute
|
Målsökvägen för beräkningen som data ska vara tillgängliga på. Standardvärde: None
|
Kommentarer
När datauppsättningen skapas från sökvägen till en enskild fil är monteringspunkten sökvägen till den enda monterade filen. Annars är monteringspunkten sökvägen till den omslutande mappen för alla monterade filer.
Om path_on_compute börjar med ett /, behandlas det som en absolut sökväg. Om den inte börjar med en /, behandlas den som en relativ sökväg i förhållande till arbetskatalogen. Om du har angett en absolut sökväg kontrollerar du att jobbet har behörighet att skriva till den katalogen.
Attribut
name
Namnet på indata.
Returer
Typ | Description |
---|---|
Namnet på indata. |