AbstractDataset Klasse

Referenz

Basisklasse von Datasets in Azure Machine Learning

Verweisen Sie auf die Klassen TabularDatasetFactory und FileDatasetFactory, um Instanzen des Datasets zu erstellen.

Klasse AbstractDataset-Konstruktor.

Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe von TabularDatasetFactory Klasse und FileDatasetFactory Klasse erstellt werden.

Vererbung: builtins.object

AbstractDataset

Konstruktor

AbstractDataset()

Methoden

add_tags	Fügt dem Tagwörterbuch dieses Datasets Schlüssel-Wert-Paare hinzu.
as_named_input	Geben Sie einen Namen für dieses Dataset an, der zum Abrufen des materialisierten Datasets bei der Ausführung verwendet wird.
get_all	Ruft alle registrierten Datasets im Arbeitsbereich ab.
get_by_id	Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
get_by_name	Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.
get_partition_key_values	Eindeutige Schlüsselwerte für partition_keys zurückgeben. Überprüfen ob partition_keys ob partition_keys eine gültige Teilmenge des vollständigen Sets von Partitionsschlüsseln ist, eindeutige Schlüsselwerte von partition_keys zurückgeben. Standardmäßig werden die eindeutigen Schlüsselkombinationen zurückgegeben, indem der vollständige Satz von Partitionsschlüsseln dieses Datasets genommen wird, wenn partition_keys „None“ ist. `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registriert das Dataset im angegebenen Arbeitsbereich.
remove_tags	Entfernt die angegebenen Schlüssel aus dem Tagwörterbuch dieses Datasets.
unregister_all_versions	Hebt die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets im Arbeitsbereich auf.
update	Führt ein direktes Update des Datasets durch.

add_tags

Fügt dem Tagwörterbuch dieses Datasets Schlüssel-Wert-Paare hinzu.

add_tags(tags=None)

Parameter

Name	Beschreibung
tags Erforderlich	dict[str, str] Das Wörterbuch der hinzuzufügenden Tags.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

as_named_input

Geben Sie einen Namen für dieses Dataset an, der zum Abrufen des materialisierten Datasets bei der Ausführung verwendet wird.

as_named_input(name)

Parameter

Name	Beschreibung
name Erforderlich	str Der Name des Datasets für die Ausführung.

Gibt zurück

Typ	Beschreibung
DatasetConsumptionConfig	Das Konfigurationsobjekt, das beschreibt, wie das Dataset während der Ausführung materialisiert werden soll.

Hinweise

Der hier aufgeführte Name ist nur innerhalb einer Azure Machine Learning-Ausführung anwendbar. Der Name darf nur alphanumerische Zeichen und Unterstriche enthalten, damit er als Umgebungsvariable verfügbar gemacht werden kann. Sie können das Dataset anhand dieses Namens im Kontext einer Ausführung abrufen, indem Sie zwei Ansätze verwenden:

Umgebungsvariable:

Der Name ist der Name der Umgebungsvariablen, und das materialisierte Dataset wird als Wert der Umgebungsvariablen verfügbar gemacht. Wenn das Dataset heruntergeladen oder eingebunden wird, ist der Wert der heruntergeladene/eingebundene Pfad. Beispiel:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Hinweis

Wenn das Dataset auf den direkten Modus festgelegt ist, ist der Wert die Dataset-ID. Sie können anschließend folgende Aktionen durchführen:

Datasetobjekts mithilfe von Dataset.get_by_id(os.environ['foo']) abrufen

Run.input_datasets:

Hierbei handelt es sich um ein Wörterbuch, in dem der Schlüssel der Datasetname ist, den Sie in dieser Methode angegeben haben, und der Wert das materialisierte Dataset ist. Für heruntergeladene und eingebundene Datasets ist der Wert der heruntergeladene/eingebundene Pfad. Im direkten Modus ist der Wert dasselbe Datasetobjekt, das Sie in Ihrem Auftragsübermittlungsskript angegeben haben.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

static get_all(workspace)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.

Gibt zurück

Typ	Beschreibung
dict[str, Union[TabularDataset, FileDataset]]	Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

static get_by_id(workspace, id, **kwargs)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.
id Erforderlich	str Die ID des Datasets.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

static get_by_name(workspace, name, version='latest', **kwargs)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.
name Erforderlich	str Der Registrierungsname.
version Erforderlich	int Die Registrierungsversion. Der Standardwert ist „latest“.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das registrierte Datasetobjekt.

get_partition_key_values

Eindeutige Schlüsselwerte für partition_keys zurückgeben.

Überprüfen ob partition_keys ob partition_keys eine gültige Teilmenge des vollständigen Sets von Partitionsschlüsseln ist, eindeutige Schlüsselwerte von partition_keys zurückgeben. Standardmäßig werden die eindeutigen Schlüsselkombinationen zurückgegeben, indem der vollständige Satz von Partitionsschlüsseln dieses Datasets genommen wird, wenn partition_keys „None“ ist.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parameter

Name	Beschreibung
partition_keys Erforderlich	list[str] Partitionsschlüssel

register

Registriert das Dataset im angegebenen Arbeitsbereich.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich, in dem das Dataset registriert werden soll.
name Erforderlich	str Der Name, unter dem das Dataset registriert werden soll.
description Erforderlich	str Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.
tags Erforderlich	dict[str, str] Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.
create_new_version Erforderlich	bool Boolescher Wert für die Registrierung des Datasets als neue Version unter dem angegebenen Namen.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das registrierte Datasetobjekt.

remove_tags

Entfernt die angegebenen Schlüssel aus dem Tagwörterbuch dieses Datasets.

remove_tags(tags=None)

Parameter

Name	Beschreibung
tags Erforderlich	list[str] Die Liste der zu entfernenden Schlüssel.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

unregister_all_versions

Hebt die Registrierung aller Versionen unter dem Registrierungsnamen dieses Datasets im Arbeitsbereich auf.

unregister_all_versions()

Hinweise

Durch den Vorgang werden keine Quelldaten geändert.

update

Führt ein direktes Update des Datasets durch.

update(description=None, tags=None)

Parameter

Name	Beschreibung
description Erforderlich	str Die neue Beschreibung, die für das Dataset verwendet werden soll. Die vorhandene Beschreibung wird durch diese Beschreibung ersetzt. Standardmäßig wird die vorhandene Beschreibung verwendet. Zum Löschen der Beschreibung geben Sie eine leere Zeichenfolge ein.
tags Erforderlich	dict[str, str] Ein Wörterbuch mit Tags, mit denen das Dataset aktualisiert werden soll. Diese Tags ersetzen vorhandene Tags für das Dataset. Standardmäßig werden die vorhandenen Tags verwendet. Zum Löschen der Tags geben Sie ein leeres Wörterbuch ein.

Gibt zurück

Typ	Beschreibung
Union[TabularDataset, FileDataset]	Das aktualisierte Datasetobjekt.

Attribute

data_changed_time

Gibt den Zeitpunkt der Änderung der Quelldaten zurück.

Gibt zurück

Typ	Beschreibung
datetime	Der Zeitpunkt, zu dem die letzte Änderung der Quelldaten erfolgt ist.

Hinweise

Der Zeitpunkt von Datenänderungen ist für dateibasierte Datenquellen verfügbar. Wenn die Datenquelle nicht für die Überprüfung des Zeitpunkts von Änderungen unterstützt wird, wird „None“ zurückgegeben.

description

Gibt die Registrierungsbeschreibung zurück.

Gibt zurück

Typ	Beschreibung
str	Datasetbeschreibung.

id

Gibt den Bezeichner des Datasets zurück.

Gibt zurück

Typ	Beschreibung
str	Dataset-ID. Wenn das Dataset nicht in einem Arbeitsbereich gespeichert wird, lautet die ID „None“.

name

Gibt den Registrierungsnamen zurück.

Gibt zurück

Typ	Beschreibung
str	Datasetname.

partition_keys

Die Partitionsschlüssel abrufen.

Gibt zurück

Typ	Beschreibung
list[str]	die Partitionsschlüssel

Typ	Beschreibung
str	Datasettags.

version

Gibt die Registrierungsversion zurück.

Gibt zurück

Typ	Beschreibung
int	Dataset-Version.

Freigeben über

AbstractDataset Klasse

Konstruktor

Methoden

add_tags

Parameter

Gibt zurück

as_named_input

Parameter

Gibt zurück

Hinweise

get_all

Parameter

Gibt zurück

get_by_id

Parameter

Gibt zurück

get_by_name

Parameter

Gibt zurück

get_partition_key_values

Parameter

register

Parameter

Gibt zurück

remove_tags

Parameter

Gibt zurück

unregister_all_versions

Hinweise

update

Parameter

Gibt zurück

Attribute

data_changed_time

Gibt zurück

Hinweise

description

Gibt zurück

id

Gibt zurück

name

Gibt zurück

partition_keys

Gibt zurück

tags

Gibt zurück

version

Gibt zurück

Feedback

Zusätzliche Ressourcen