OutputFileDatasetConfig Classe
Represente como copiar o resultado de uma execução e ser promovido como fileDataset.
O OutputFileDatasetConfig permite-lhe especificar como pretende que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não transmitir argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicializar um OutputFileDatasetConfig.
O OutputFileDatasetConfig permite-lhe especificar como pretende que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo de não transmitir argumentos:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Herança
-
OutputFileDatasetConfigOutputFileDatasetConfig
Construtor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde pode escrever os seus ficheiros e pastas de saída para que serão carregados para o destino. |
destination
Necessário
|
O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome-saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados. O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, só são suportados dois marcadores de posição: {run-id} e {output-name}. |
source
Necessário
|
O caminho dentro do destino de computação a partir do qual copiar os dados. Se estiver definido como Nenhum, iremos defini-lo para um diretório que criamos no diretório temporário do SO do destino de computação. |
partition_format
Necessário
|
Especifique o formato de partição do caminho. A predefinição é Nenhuma. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
name
Necessário
|
O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde pode escrever os seus ficheiros e pastas de saída para que serão carregados para o destino. |
destination
Necessário
|
O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome-saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados. O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, só são suportados dois marcadores de posição: {run-id} e {output-name}. |
source
Necessário
|
O caminho dentro do destino de computação a partir do qual copiar os dados. Se estiver definido como Nenhum, iremos defini-lo para um diretório que criamos no diretório temporário do SO do destino de computação. |
partition_format
Necessário
|
Especifique o formato de partição do caminho. A predefinição é Nenhuma. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
Observações
Pode transmitir OutputFileDatasetConfig como um argumento para a execução e será traduzido automaticamente para o caminho local na computação. O argumento de origem será utilizado se for especificado um, caso contrário, geraremos automaticamente um diretório na pasta temporária do SO. Os ficheiros e pastas no diretório de origem serão então copiados para o destino com base na configuração de saída.
Por predefinição, o modo pelo qual a saída será copiada para o armazenamento de destino será definido como montagem. Para obter mais informações sobre o modo de montagem, consulte a documentação para as_mount.
Métodos
as_input |
Especifique como consumir a saída como entrada nos passos subsequentes do pipeline. |
as_mount |
Defina o modo da saída para montar. Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado. |
as_upload |
Defina o modo da saída para carregar. Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado. |
as_input
Especifique como consumir a saída como entrada nos passos subsequentes do pipeline.
as_input(name=None)
Parâmetros
Name | Description |
---|---|
name
Necessário
|
O nome da entrada específica da execução. |
Devoluções
Tipo | Description |
---|---|
Uma DatasetConsumptionConfig instância que descreve como entregar os dados de entrada. |
as_mount
Defina o modo da saída para montar.
Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado.
as_mount(disable_metadata_cache=False)
Parâmetros
Name | Description |
---|---|
disable_metadata_cache
Necessário
|
Se pretende colocar metadados em cache no nó local, se estiver desativado, um nó não conseguirá ver ficheiros gerados a partir de outros nós durante a execução da tarefa. |
Devoluções
Tipo | Description |
---|---|
Uma OutputFileDatasetConfig instância com o modo definido como montagem. |
as_upload
Defina o modo da saída para carregar.
Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
Name | Description |
---|---|
overwrite
Necessário
|
Se pretende substituir ficheiros que já existem no destino. |
source_globs
Necessário
|
Padrões Glob utilizados para filtrar ficheiros que serão carregados. |
Devoluções
Tipo | Description |
---|---|
Uma OutputFileDatasetConfig instância com o modo definido para carregar. |