DatasetDefinition Klasse
Definiert eine Reihe von Schritten, die angeben, wie Daten in einem Dataset gelesen und transformiert werden.
Hinweis
Diese Klasse ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Ein in einem Azure Machine Learning-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.
Für nicht registrierte Datasets gibt es nur eine Definition.
Datasetdefinitionen unterstützen alle Transformationen, die für die <xref:azureml.dataprep.Dataflow>-Klasse aufgeführt sind: siehe http://aka.ms/azureml/howto/transformdata. Weitere Informationen zu Datasetdefinitionen finden Sie unter https://aka.ms/azureml/howto/versiondata.
Initialisieren Sie das Datasetdefinitionsobjekt.
- Vererbung
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem das Dataset registriert ist. |
dataset_id
Erforderlich
|
Der Datasetbezeichner. |
version_id
Erforderlich
|
Die Definitionsversion. |
dataflow
Erforderlich
|
Das Dataflow-Objekt. |
dataflow_json
Erforderlich
|
Der Dataflow-JSON-Code. |
notes
Erforderlich
|
Optionale Informationen zur Definition. |
etag
Erforderlich
|
Etag. |
created_time
Erforderlich
|
Die Erstellungszeit der Definition. |
modified_time
Erforderlich
|
Der Zeitpunkt der letzten Änderung der Definition. |
deprecated_by_dataset_id
Erforderlich
|
Die ID des Datasets, das diese Definition als veraltet bezeichnet. |
deprecated_by_definition_version
Erforderlich
|
Die Version der Definition, die diese Definition als veraltet darstellt. |
data_path
Erforderlich
|
Der Datenpfad. |
dataset
Erforderlich
|
Das übergeordnete Dataset-Objekt. |
Methoden
archive |
Archivieren Sie die Datasetdefinition. |
create_snapshot |
Erstellt eine Momentaufnahme des registrierten Datasets. |
deprecate |
Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset. |
reactivate |
Aktivieren Sie die Datasetdefinition erneut. Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden. |
to_pandas_dataframe |
Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird. |
to_spark_dataframe |
Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann. |
archive
Archivieren Sie die Datasetdefinition.
archive()
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
Hinweise
Nach der Archivierung führt jeder Versuch, das Dataset abzurufen, zu einem Fehler. Verwenden Sie bei einer versehentlichen Aktivierung reactivate, um es zu aktivieren.
create_snapshot
Erstellt eine Momentaufnahme des registrierten Datasets.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
Name | Beschreibung |
---|---|
snapshot_name
Erforderlich
|
Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein. |
compute_target
|
ComputeTarget oder
str
Das Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet. Standardwert: None
|
create_data_snapshot
|
TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird. Standardwert: False
|
target_datastore
|
Der Zieldatenspeicher, in dem die Momentaufnahme gespeichert werden soll. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt. Standardwert: None
|
Gibt zurück
Typ | Beschreibung |
---|---|
Ein DatasetSnapshot-Objekt. |
Hinweise
Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.
deprecate
Kennzeichnet das Dataset als veraltet und versieht es mit einem Zeiger auf das neue Dataset.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameter
Name | Beschreibung |
---|---|
deprecate_by_dataset_id
Erforderlich
|
Die Dataset-ID, die für das Kennzeichnen des aktuellen Datasets als veraltet verwendet wird. |
deprecated_by_definition_version
|
Die Datasetdefinition, die für das Kennzeichnen der aktuellen Datasetdefinition als veraltet verwendet wird. Standardwert: None
|
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
Hinweise
Veraltete Datasetdefinitionen führen zu Protokollwarnungen, wenn sie verwendet werden. Wenn Sie eine Datasetdefinition vollständig von der Verwendung ausschließen möchten, archivieren Sie sie.
Wenn eine Datasetdefinition versehentlich als veraltet gekennzeichnet wurde, verwenden Sie reactivate, um sie zu aktivieren.
reactivate
Aktivieren Sie die Datasetdefinition erneut.
Wird mit Datasetdefinitionen verwendet, die als veraltet gekennzeichnet oder archiviert wurden.
reactivate()
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
to_pandas_dataframe
Erstellen Sie einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.
to_pandas_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Pandas-Datenrahmen. |
Hinweise
Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.
to_spark_dataframe
Erstellen Sie einen Spark-DataFrame, der die durch diesen Dataflow festgelegte Transformationspipeline ausführen kann.
to_spark_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Spark-Datenrahmen. |
Hinweise
Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.