OutputFileDatasetConfig Classe

Represente como copiar o resultado de uma execução e ser promovido como fileDataset.

O OutputFileDatasetConfig permite-lhe especificar como pretende que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não transmitir argumentos:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializar um OutputFileDatasetConfig.

O OutputFileDatasetConfig permite-lhe especificar como pretende que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se não forem transmitidos argumentos para o construtor, geraremos automaticamente um nome, um destino e um caminho local.

Um exemplo de não transmitir argumentos:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Um exemplo de criação de uma saída e, em seguida, promover a saída para um conjunto de dados tabular e registá-lo com o nome foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Herança
OutputFileDatasetConfig
OutputFileDatasetConfig

Construtor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parâmetros

Name Description
name
Necessário
str

O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde pode escrever os seus ficheiros e pastas de saída para que serão carregados para o destino.

destination
Necessário

O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome-saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados.

O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, só são suportados dois marcadores de posição: {run-id} e {output-name}.

source
Necessário
str

O caminho dentro do destino de computação a partir do qual copiar os dados. Se estiver definido como Nenhum, iremos defini-lo para um diretório que criamos no diretório temporário do SO do destino de computação.

partition_format
Necessário
str

Especifique o formato de partição do caminho. A predefinição é Nenhuma. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

name
Necessário
str

O nome da saída específica para esta execução. Geralmente, isto é utilizado para fins de linhagem. Se estiver definido como Nenhum, geraremos automaticamente um nome. O nome também se tornará uma variável de ambiente que contém o caminho local de onde pode escrever os seus ficheiros e pastas de saída para que serão carregados para o destino.

destination
Necessário

O destino para o quais copiar a saída. Se estiver definido como Nenhum, copiaremos o resultado para o arquivo de dados workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é o ID da Execução e o nome-saída é o nome de saída do parâmetro de nome acima. O destino é uma cadeia de identificação onde o primeiro item é o arquivo de dados e o segundo item é o caminho no arquivo de dados para o qual copiar os dados.

O caminho no arquivo de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho normal, mas com marcadores de posição no interior. Esses marcadores de posição serão então resolvidos no momento adequado. A sintaxe dos marcadores de posição é {placeholder}, por exemplo, /path/with/{placeholder}. Atualmente, só são suportados dois marcadores de posição: {run-id} e {output-name}.

source
Necessário
str

O caminho dentro do destino de computação a partir do qual copiar os dados. Se estiver definido como Nenhum, iremos defini-lo para um diretório que criamos no diretório temporário do SO do destino de computação.

partition_format
Necessário
str

Especifique o formato de partição do caminho. A predefinição é Nenhuma. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. Formatar a parte '{column_name}' cria a coluna de cadeia e '{column_name:aaaa/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'aaaa', 'MM', 'dd', 'HH', 'mm' e 'ss' são utilizados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar a partir da posição da primeira chave de partição até ao fim do caminho do ficheiro. Por exemplo, dado o caminho ".. /Accounts/2019/01/01/data.parquet' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

Observações

Pode transmitir OutputFileDatasetConfig como um argumento para a execução e será traduzido automaticamente para o caminho local na computação. O argumento de origem será utilizado se for especificado um, caso contrário, geraremos automaticamente um diretório na pasta temporária do SO. Os ficheiros e pastas no diretório de origem serão então copiados para o destino com base na configuração de saída.

Por predefinição, o modo pelo qual a saída será copiada para o armazenamento de destino será definido como montagem. Para obter mais informações sobre o modo de montagem, consulte a documentação para as_mount.

Métodos

as_input

Especifique como consumir a saída como entrada nos passos subsequentes do pipeline.

as_mount

Defina o modo da saída para montar.

Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado.

as_upload

Defina o modo da saída para carregar.

Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado.

as_input

Especifique como consumir a saída como entrada nos passos subsequentes do pipeline.

as_input(name=None)

Parâmetros

Name Description
name
Necessário
str

O nome da entrada específica da execução.

Devoluções

Tipo Description

Uma DatasetConsumptionConfig instância que descreve como entregar os dados de entrada.

as_mount

Defina o modo da saída para montar.

Para o modo de montagem, o diretório de saída será um diretório montado FUSE. Os ficheiros escritos no diretório montado serão carregados quando o ficheiro for fechado.

as_mount(disable_metadata_cache=False)

Parâmetros

Name Description
disable_metadata_cache
Necessário

Se pretende colocar metadados em cache no nó local, se estiver desativado, um nó não conseguirá ver ficheiros gerados a partir de outros nós durante a execução da tarefa.

Devoluções

Tipo Description

Uma OutputFileDatasetConfig instância com o modo definido como montagem.

as_upload

Defina o modo da saída para carregar.

Para o modo de carregamento, os ficheiros escritos no diretório de saída serão carregados no final da tarefa. Se a tarefa falhar ou for cancelada, o diretório de saída não será carregado.

as_upload(overwrite=False, source_globs=None)

Parâmetros

Name Description
overwrite
Necessário

Se pretende substituir ficheiros que já existem no destino.

source_globs
Necessário

Padrões Glob utilizados para filtrar ficheiros que serão carregados.

Devoluções

Tipo Description

Uma OutputFileDatasetConfig instância com o modo definido para carregar.