DatasetDefinition Klasse

Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.

Hinweis

Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.

Für nicht registrierte Datasets gibt es nur eine Definition.

Datasetdefinitionen unterstützen alle Transformationen, die für die <xref:azureml.dataprep.Dataflow>-Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.

Initialisieren Sie das Datasetdefinitionsobjekt.

Vererbung
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameter

Name Beschreibung
workspace
Erforderlich
str

Der Arbeitsbereich, in dem das Dataset registriert ist.

dataset_id
Erforderlich
str

Der Datasetbezeichner.

version_id
Erforderlich
str

Die Definitionsversion.

dataflow
Erforderlich
str

Das Dataflow-Objekt.

dataflow_json
Erforderlich

Der Dataflow-JSON-Code.

notes
Erforderlich
str

Optionale Informationen zur Definition.

etag
Erforderlich
str

Etag.

created_time
Erforderlich

Die Erstellungszeit der Definition.

modified_time
Erforderlich

Der Zeitpunkt der letzten Änderung der Definition.

deprecated_by_dataset_id
Erforderlich
str

Die ID des Datasets, das diese Definition als veraltet bezeichnet.

deprecated_by_definition_version
Erforderlich
str

Die Version der Definition, die diese Definition als veraltet darstellt.

data_path
Erforderlich

Der Datenpfad.

dataset
Erforderlich

Das übergeordnete Dataset-Objekt.

Methoden

archive

Archivieren Sie die Datasetdefinition.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

deprecate

Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.

reactivate

Aktivieren Sie die Datasetdefinition erneut.

Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

to_spark_dataframe

Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

archive

Archivieren Sie die Datasetdefinition.

archive()

Gibt zurück

Typ Beschreibung

Keine.

Hinweise

Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Verwenden Sie bei einer versehentlichen Aktivierung reactivate, um es zu aktivieren.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

Name Beschreibung
snapshot_name
Erforderlich
str

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target

Das Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

Standardwert: None
create_data_snapshot

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

Standardwert: False
target_datastore

Der Zieldatenspeicher, in dem die Momentaufnahme gespeichert werden soll. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Standardwert: None

Gibt zurück

Typ Beschreibung

Ein DatasetSnapshot-Objekt.

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

deprecate

Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameter

Name Beschreibung
deprecate_by_dataset_id
Erforderlich

Die Dataset-ID, die für das Kennzeichnen des aktuellen Datasets als veraltet verwendet wird.

deprecated_by_definition_version
str

Die Datasetdefinition, die für das Kennzeichnen der aktuellen Datasetdefinition als veraltet verwendet wird.

Standardwert: None

Gibt zurück

Typ Beschreibung

Keine.

Hinweise

Veraltete Datasetdefinitionen führen zu Protokollwarnungen, wenn sie verwendet werden. Wenn Sie eine Datasetdefinition vollständig von der Verwendung ausschließen möchten, archivieren Sie sie.

Wenn eine Datasetdefinition versehentlich als veraltet gekennzeichnet wurde, verwenden Sie reactivate, um sie zu aktivieren.

reactivate

Aktivieren Sie die Datasetdefinition erneut.

Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.

reactivate()

Gibt zurück

Typ Beschreibung

Keine.

to_pandas_dataframe

Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

to_pandas_dataframe()

Gibt zurück

Typ Beschreibung

Ein Pandas-Datenrahmen.

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Ein Spark-Datenrahmen.

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.