OutputFileDatasetConfig Classe
Rappresentare come copiare l'output di un'esecuzione e essere promosso come FileDataset.
OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.
Esempio di non passaggio di argomenti:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inizializzare un outputFileDatasetConfig.
OutputFileDatasetConfig consente di specificare la modalità di caricamento di un percorso locale specifico nella destinazione di calcolo. Se non vengono passati argomenti al costruttore, verrà generato automaticamente un nome, una destinazione e un percorso locale.
Esempio di non passaggio di argomenti:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Esempio di creazione di un output, quindi promozione dell'output in un set di dati tabulare e registrarlo con il nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Ereditarietà
-
OutputFileDatasetConfigOutputFileDatasetConfig
Costruttore
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametri
Nome | Descrizione |
---|---|
name
Necessario
|
Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione. |
destination
Necessario
|
Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati. Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}. |
source
Necessario
|
Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo. |
partition_format
Necessario
|
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'. |
name
Necessario
|
Nome dell'output specifico di questa esecuzione. Questa operazione viene generalmente usata per scopi di derivazione. Se impostato su Nessuno, verrà generato automaticamente un nome. Il nome diventerà anche una variabile di ambiente che contiene il percorso locale di dove è possibile scrivere i file di output e le cartelle in che verranno caricati nella destinazione. |
destination
Necessario
|
Destinazione in cui copiare l'output. Se impostato su Nessuno, l'output verrà copiato nell'archivio dati dell'archivio dati workspaceblobstore, nel percorso /dataset/{run-id}/{output-name}, dove run-id è l'ID run e il nome di output è il nome di output del parametro name precedente. La destinazione è una tupla in cui il primo elemento è l'archivio dati e il secondo elemento è il percorso all'interno dell'archivio dati in cui copiare i dati. Il percorso all'interno dell'archivio dati può essere un percorso modello. Un percorso modello è solo un percorso normale, ma con segnaposto all'interno. Tali segnaposto verranno quindi risolti al momento appropriato. La sintassi per i segnaposto è {segnaposto}, ad esempio /path/with/{segnaposto}. Attualmente sono supportati solo due segnaposto, {run-id} e {output-name}. |
source
Necessario
|
Percorso all'interno della destinazione di calcolo da cui copiare i dati. Se impostato su Nessuno, verrà impostato su una directory creata all'interno della directory temporanea del sistema operativo di destinazione di calcolo. |
partition_format
Necessario
|
Specificare il formato di partizione del percorso. Il valore predefinito è Nessuna. Le informazioni di partizione di ogni percorso verranno estratte in colonne in base al formato specificato. La parte di formato '{column_name}' crea colonna stringa e '{column_name:y/MM/dd/HH/mm/ss}' crea colonna datetime, dove 'y', 'MM', 'dd', 'HH', 'mm' e 'ss' vengono usati per estrarre anno, mese, giorno, ora e secondo per il tipo datetime. Il formato deve iniziare dalla posizione della prima chiave di partizione fino alla fine del percorso del file. Ad esempio, dato il percorso '.. /Accounts/2019/01/01/data.parquet' dove la partizione è in base al nome e all'ora del reparto, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una colonna stringa 'Department' con il valore 'Accounts' e una colonna datetime 'PartitionDate' con il valore '2019-01-01'. |
Commenti
È possibile passare outputFileDatasetConfig come argomento all'esecuzione e verrà convertito automaticamente nel percorso locale nel calcolo. L'argomento di origine verrà usato se specificato, in caso contrario, verrà generata automaticamente una directory nella cartella temp del sistema operativo. I file e le cartelle all'interno della directory di origine verranno quindi copiati nella destinazione in base alla configurazione di output.
Per impostazione predefinita, la modalità in cui l'output verrà copiato nell'archivio di destinazione verrà impostato sul montaggio. Per altre informazioni sulla modalità di montaggio, vedere la documentazione per as_mount.
Metodi
as_input |
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline. |
as_mount |
Impostare la modalità dell'output su montaggio. Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso. |
as_upload |
Impostare la modalità dell'output da caricare. Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata. |
as_input
Specificare come utilizzare l'output come input nei passaggi successivi della pipeline.
as_input(name=None)
Parametri
Nome | Descrizione |
---|---|
name
Necessario
|
Nome dell'input specifico dell'esecuzione. |
Restituisce
Tipo | Descrizione |
---|---|
DatasetConsumptionConfig Istanza che descrive come recapitare i dati di input. |
as_mount
Impostare la modalità dell'output su montaggio.
Per la modalità di montaggio, la directory di output sarà una directory montata FUSE. I file scritti nella directory montata verranno caricati quando il file viene chiuso.
as_mount(disable_metadata_cache=False)
Parametri
Nome | Descrizione |
---|---|
disable_metadata_cache
Necessario
|
Se memorizzare nella cache i metadati nel nodo locale, se disabilitato un nodo non sarà in grado di visualizzare i file generati da altri nodi durante l'esecuzione del processo. |
Restituisce
Tipo | Descrizione |
---|---|
OutputFileDatasetConfig Istanza con modalità impostata su montaggio. |
as_upload
Impostare la modalità dell'output da caricare.
Per la modalità di caricamento, i file scritti nella directory di output verranno caricati alla fine del processo. Se il processo ha esito negativo o viene annullato, la directory di output non verrà caricata.
as_upload(overwrite=False, source_globs=None)
Parametri
Nome | Descrizione |
---|---|
overwrite
Necessario
|
Se sovrascrivere i file già presenti nella destinazione. |
source_globs
Necessario
|
Modelli Glob usati per filtrare i file che verranno caricati. |
Restituisce
Tipo | Descrizione |
---|---|
OutputFileDatasetConfig Istanza con modalità impostata per il caricamento. |