DatasetConsumptionConfig Classe
Represente como entregar o conjunto de dados a um destino de computação.
Represente como entregar o conjunto de dados ao destino de computação.
- Herança
-
builtins.objectDatasetConsumptionConfig
Construtor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
O nome do conjunto de dados na execução, que pode ser diferente do nome registado. O nome será registado como variável de ambiente e poderá ser utilizado no plano de dados. |
dataset
Necessário
|
O conjunto de dados que será consumido na execução. |
mode
|
Define como o conjunto de dados deve ser entregue ao destino de computação. Existem três modos:
Default value: direct
|
path_on_compute
|
O caminho de destino na computação em que os dados estão disponíveis. A estrutura de pastas dos dados de origem será mantida. No entanto, podemos adicionar prefixos a esta estrutura de pastas para evitar colisões. Utilize Default value: None
|
name
Necessário
|
O nome do conjunto de dados na execução, que pode ser diferente do nome registado. O nome será registado como variável de ambiente e poderá ser utilizado no plano de dados. |
dataset
Necessário
|
Dataset ou
PipelineParameter ou
tuple(Workspace, str) ou
tuple(Workspace, str, str) ou
OutputDatasetConfig
O conjunto de dados a entregar, como um objeto de Conjunto de Dados, Parâmetro de Pipeline que ingere um Conjunto de Dados, uma cadeia de identificação de (área de trabalho, nome do conjunto de dados) ou uma cadeia de identificação de (área de trabalho, nome do conjunto de dados, versão do conjunto de dados). Se for fornecido apenas um nome, o DatasetConsumptionConfig utilizará a versão mais recente do Conjunto de Dados. |
mode
Necessário
|
Define como o conjunto de dados deve ser entregue ao destino de computação. Existem três modos:
|
path_on_compute
Necessário
|
O caminho de destino na computação em que os dados estão disponíveis. A estrutura de pastas dos dados de origem será mantida. No entanto, podemos adicionar prefixos a esta estrutura de pastas para evitar colisões. Recomendamos que chame tabular_dataset.to_path para ver a estrutura da pasta de saída. |
Métodos
as_download |
Defina o modo a transferir. Na execução submetida, os ficheiros no conjunto de dados serão transferidos para o caminho local no destino de computação. A localização da transferência pode ser obtida a partir de valores de argumentos e do campo input_datasets do contexto de execução.
|
as_hdfs |
Defina o modo como hdfs. Na execução do synapse submetida, os ficheiros nos conjuntos de dados serão convertidos no caminho local no destino de computação. O caminho hdfs pode ser obtido a partir dos valores de argumento e das variáveis de ambiente do so.
|
as_mount |
Defina o modo para montar. Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no destino de computação. O ponto de montagem pode ser obtido a partir de valores de argumento e do campo input_datasets do contexto de execução.
|
as_download
Defina o modo a transferir.
Na execução submetida, os ficheiros no conjunto de dados serão transferidos para o caminho local no destino de computação. A localização da transferência pode ser obtida a partir de valores de argumentos e do campo input_datasets do contexto de execução.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parâmetros
Name | Description |
---|---|
path_on_compute
|
O caminho de destino na computação em que os dados estão disponíveis. Default value: None
|
Observações
Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, a localização de transferência será o caminho do ficheiro transferido único. Caso contrário, a localização de transferência será o caminho da pasta de colocação para todos os ficheiros transferidos.
Se path_on_compute começa com um /, será tratado como um caminho absoluto. Se não começar com um /, será tratado como um caminho relativo em relação ao diretório de trabalho. Se tiver especificado um caminho absoluto, certifique-se de que a tarefa tem permissão para escrever nesse diretório.
as_hdfs
Defina o modo como hdfs.
Na execução do synapse submetida, os ficheiros nos conjuntos de dados serão convertidos no caminho local no destino de computação. O caminho hdfs pode ser obtido a partir dos valores de argumento e das variáveis de ambiente do so.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Observações
Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o caminho do hdfs será o caminho do ficheiro único. Caso contrário, o caminho do hdfs será o caminho da pasta de colocação para todos os ficheiros montados.
as_mount
Defina o modo para montar.
Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no destino de computação. O ponto de montagem pode ser obtido a partir de valores de argumento e do campo input_datasets do contexto de execução.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parâmetros
Name | Description |
---|---|
path_on_compute
|
O caminho de destino na computação em que os dados estão disponíveis. Default value: None
|
Observações
Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o ponto de montagem será o caminho do ficheiro montado único. Caso contrário, o ponto de montagem será o caminho da pasta de colocação para todos os ficheiros montados.
Se path_on_compute começa com um /, será tratado como um caminho absoluto. Se não começar com um /, será tratado como um caminho relativo em relação ao diretório de trabalho. Se tiver especificado um caminho absoluto, certifique-se de que a tarefa tem permissão para escrever nesse diretório.
Atributos
name
Nome da entrada.
Devoluções
Tipo | Description |
---|---|
Nome da entrada. |