DatasetConsumptionConfig Klass

Representerar hur du levererar datauppsättningen till ett beräkningsmål.

Representerar hur du levererar datauppsättningen till beräkningsmålet.

Arv
builtins.object
DatasetConsumptionConfig

Konstruktor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parametrar

Name Description
name
Obligatorisk
str

Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet.

dataset
Obligatorisk

Den datauppsättning som ska användas i körningen.

mode
str

Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:

  1. "direct": använder datauppsättningen som datauppsättning.
  2. "download": ladda ned datauppsättningen och använd datauppsättningen som nedladdad sökväg.
  3. "montering": montera datauppsättningen och använd datauppsättningen som monteringssökväg.
  4. "hdfs": använd datauppsättningen från den matchade hdfs-sökvägen (stöds för närvarande endast på SynapseSpark-beräkning).
Standardvärde: direct
path_on_compute
str

Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Använd tabular_dataset.to_path för att se mappstrukturen för utdata.

Standardvärde: None
name
Obligatorisk
str

Namnet på datauppsättningen i körningen, som kan skilja sig från det registrerade namnet. Namnet registreras som miljövariabel och kan användas i dataplanet.

dataset
Obligatorisk

Datauppsättningen som ska levereras, som ett datauppsättningsobjekt, pipelineparameter som matar in en datauppsättning, en tupplar (arbetsyta, datauppsättningsnamn) eller en tupplar av (arbetsyta, datauppsättningens namn, datauppsättningsversion). Om endast ett namn anges använder DatasetConsumptionConfig den senaste versionen av datauppsättningen.

mode
Obligatorisk
str

Definierar hur datauppsättningen ska levereras till beräkningsmålet. Det finns tre lägen:

  1. "direct": använder datauppsättningen som datauppsättning.
  2. "download": ladda ned datauppsättningen och använd datauppsättningen som nedladdad sökväg.
  3. "montering": montera datauppsättningen och använd datauppsättningen som monteringssökväg.
  4. "hdfs": använd datauppsättningen från den matchade hdfs-sökvägen (stöds för närvarande endast på SynapseSpark-beräkning).
path_on_compute
Obligatorisk
str

Målsökvägen för beräkningen som data ska vara tillgängliga på. Källdatas mappstruktur behålls, men vi kan lägga till prefix i den här mappstrukturen för att undvika kollision. Vi rekommenderar att du anropar tabular_dataset.to_path för att se mappstrukturen för utdata.

Metoder

as_download

Ställ in läget för nedladdning.

I den skickade körningen laddas filer i datauppsättningen ned till den lokala sökvägen på beräkningsmålet. Nedladdningsplatsen kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Ställ in läget på hdfs.

I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Ställ in läget på montering.

I den skickade körningen monteras filer i datauppsättningarna på den lokala sökvägen på beräkningsmålet. Monteringspunkten kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Ställ in läget för nedladdning.

I den skickade körningen laddas filer i datauppsättningen ned till den lokala sökvägen på beräkningsmålet. Nedladdningsplatsen kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parametrar

Name Description
path_on_compute
str

Målsökvägen för beräkningen som data ska vara tillgängliga på.

Standardvärde: None

Kommentarer

När datauppsättningen skapas från sökvägen till en enda fil är nedladdningsplatsen sökvägen till den enda nedladdade filen. Annars är nedladdningsplatsen sökvägen till den omslutande mappen för alla nedladdade filer.

Om path_on_compute börjar med ett /, behandlas det som en absolut sökväg. Om den inte börjar med en /, behandlas den som en relativ sökväg i förhållande till arbetskatalogen. Om du har angett en absolut sökväg kontrollerar du att jobbet har behörighet att skriva till den katalogen.

as_hdfs

Ställ in läget på hdfs.

I den skickade synapse-körningen konverteras filer i datauppsättningarna till en lokal sökväg i beräkningsmålet. Hdfs-sökvägen kan hämtas från argumentvärden och os-miljövariablerna.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Kommentarer

När datauppsättningen skapas från sökvägen till en enskild fil är hdfs-sökvägen sökvägen till den enskilda filen. Annars är hdfs-sökvägen sökvägen till den omslutande mappen för alla monterade filer.

as_mount

Ställ in läget på montering.

I den skickade körningen monteras filer i datauppsättningarna på den lokala sökvägen på beräkningsmålet. Monteringspunkten kan hämtas från argumentvärden och fältet input_datasets i körningskontexten.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parametrar

Name Description
path_on_compute
str

Målsökvägen för beräkningen som data ska vara tillgängliga på.

Standardvärde: None

Kommentarer

När datauppsättningen skapas från sökvägen till en enskild fil är monteringspunkten sökvägen till den enda monterade filen. Annars är monteringspunkten sökvägen till den omslutande mappen för alla monterade filer.

Om path_on_compute börjar med ett /, behandlas det som en absolut sökväg. Om den inte börjar med en /, behandlas den som en relativ sökväg i förhållande till arbetskatalogen. Om du har angett en absolut sökväg kontrollerar du att jobbet har behörighet att skriva till den katalogen.

Attribut

name

Namnet på indata.

Returer

Typ Description

Namnet på indata.