OutputFileDatasetConfig Klasse

Gibt an, wie die Ausgabe einer Ausführung kopiert und als Dataset vom Typ „FileDataset“ höher gestuft wird.

Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert.

Beispiel für die Nichtübergabe von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren unter dem Namen „foo“:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren sie eine OutputFileDatasetConfig.

Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert.

Beispiel für die Nichtübergabe von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren mit dem Namen „foo“:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Vererbung
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der für diese Ausführung spezifischen Ausgabe. Er wird in der Regel für die Datenherkunft verwendet. Bei Einstellung auf „None“ wird automatisch ein Name generiert. Der Name wird außerdem zu einer Umgebungsvariablen, die den lokalen Pfad enthält, in den Sie Ihre Ausgabedateien und Ordner schreiben können, die in das Ziel hochgeladen werden.

destination
Erforderlich

Das Ziel, in das die Ausgabe kopiert werden soll. Bei Einstellung auf „None“ wird die Ausgabe in den Datenspeicher „workspaceblobstore“ unter dem Pfad „/dataset/{run-id}/{output-name}“ kopiert. run-id ist dabei die ID der Ausführung, und output-name ist der Ausgabename aus dem obigen Parameter name. Das Ziel ist ein Tupel, bei dem das erste Element der Datenspeicher und das zweite Element der Pfad innerhalb des Datenspeichers ist, in den die Daten kopiert werden sollen.

Der Pfad im Datenspeicher kann ein Vorlagenpfad sein. Ein Vorlagenpfad ist ein regulärer Pfad, enthält allerdings Platzhalter. Diese Platzhalter werden dann zum richtigen Zeitpunkt aufgelöst. Die Syntax für Platzhalter lautet „{placeholder}“, z. B. „/path/with/{placeholder}“. Derzeit werden nur zwei Platzhalter unterstützt: {run-id} und {output-name}.

source
Erforderlich
str

Der Pfad innerhalb des Computeziels, aus dem die Daten kopiert werden sollen. Bei Einstellung auf „None“ wird er auf ein Verzeichnis festgelegt, das im temporären Verzeichnis des Betriebssystems des Computeziels erstellt wird.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partitionierung erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

name
Erforderlich
str

Der Name der für diese Ausführung spezifischen Ausgabe. Er wird in der Regel für die Datenherkunft verwendet. Bei Einstellung auf „None“ wird automatisch ein Name generiert. Der Name wird außerdem zu einer Umgebungsvariablen, die den lokalen Pfad enthält, in den Sie Ihre Ausgabedateien und Ordner schreiben können, die in das Ziel hochgeladen werden.

destination
Erforderlich

Das Ziel, in das die Ausgabe kopiert werden soll. Bei Einstellung auf „None“ wird die Ausgabe in den Datenspeicher „workspaceblobstore“ unter dem Pfad „/dataset/{run-id}/{output-name}“ kopiert. run-id ist dabei die ID der Ausführung, und output-name ist der Ausgabename aus dem obigen Parameter name. Das Ziel ist ein Tupel, bei dem das erste Element der Datenspeicher und das zweite Element der Pfad innerhalb des Datenspeichers ist, in den die Daten kopiert werden sollen.

Der Pfad im Datenspeicher kann ein Vorlagenpfad sein. Ein Vorlagenpfad ist ein regulärer Pfad, enthält allerdings Platzhalter. Diese Platzhalter werden dann zum richtigen Zeitpunkt aufgelöst. Die Syntax für Platzhalter lautet „{placeholder}“, z. B. „/path/with/{placeholder}“. Derzeit werden nur zwei Platzhalter unterstützt: {run-id} und {output-name}.

source
Erforderlich
str

Der Pfad innerhalb des Computeziels, aus dem die Daten kopiert werden sollen. Bei Einstellung auf „None“ wird er auf ein Verzeichnis festgelegt, das im temporären Verzeichnis des Betriebssystems des Computeziels erstellt wird.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partitionierung erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

Hinweise

Sie können OutputFileDatasetConfig als Argument an Ihre Ausführung übergeben. Es wird dann automatisch in den lokalen Pfad auf der Computeressource übersetzt. Das Quellargument wird verwendet, wenn eines angegeben ist. Andernfalls generieren Sie automatisch ein Verzeichnis im temporären Ordner des Betriebssystems. Die Dateien und Ordner im Quellverzeichnis werden dann basierend auf der Ausgabekonfiguration in das Ziel kopiert.

Standardmäßig wird der Modus, durch den die Ausgabe in den Zielspeicher kopiert wird, auf „mount“ (Einbinden) festgelegt. Weitere Informationen zum Einbindungsmodus finden Sie in der Dokumentation zu „as_mount“.

Methoden

as_input

Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_mount

Festlegen des Modus der einzubindenden Ausgabe.

Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.

as_upload

Festlegen des Modus der hochzuladenden Ausgabe.

Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_input

Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der für die Ausführung spezifischen Eingabe.

Gibt zurück

Typ Beschreibung

Eine DatasetConsumptionConfig-Instanz, die beschreibt, wie die Eingabedaten übermittelt werden.

as_mount

Festlegen des Modus der einzubindenden Ausgabe.

Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.

as_mount(disable_metadata_cache=False)

Parameter

Name Beschreibung
disable_metadata_cache
Erforderlich

Gibt an, ob Metadaten im lokalen Knoten zwischengespeichert werden sollen. Ist diese Option deaktiviert, kann ein Knoten keine Dateien anzeigen, die während der Auftragsausführung von anderen Knoten generiert wurden.

Gibt zurück

Typ Beschreibung

Eine OutputFileDatasetConfig-Instanz, für die der Einbindungsmodus festgelegt ist.

as_upload

Festlegen des Modus der hochzuladenden Ausgabe.

Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name Beschreibung
overwrite
Erforderlich

Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.

source_globs
Erforderlich

Globmuster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ Beschreibung

Eine OutputFileDatasetConfig-Instanz, für die der Modus auf „upload“ (Hochladen) festgelegt ist.