data Paket
Enthält Module, die die Datendarstellung für den Datenspeicher und das Dataset in Azure Machine Learning unterstützen.
Dieses Paket enthält Kernfunktionen, die die Klassen Datastore und Dataset im core-Paket unterstützen. Datenspeicherobjekte enthalten Verbindungsinformationen zu Azure-Speicherdiensten, auf die problemlos anhand des Namens verwiesen werden kann, ohne dass Verbindungsinformationen in Skripts direkt verwendet oder hart codiert werden müssen. Der Datenspeicher unterstützt eine Reihe verschiedener Dienste, die durch Klassen in diesem Paket dargestellt werden, einschließlich AzureBlobDatastore, AzureFileDatastore und AzureDataLakeDatastore. Eine vollständige Liste der unterstützten Speicherdienste finden Sie im Artikel zur Datastore-Klasse.
Ein Datenspeicher fungiert als Container für Ihre Datendateien. Ein Dataset können Sie sich als Verweis oder Zeiger auf bestimmte Daten vorstellen, die sich in Ihrem Datenspeicher befinden. Die folgenden Datasettypen werden unterstützt:
TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.
FileDataset verweist auf eine einzelne Datei oder auf mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs.
Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit Datasets finden Sie unter https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.
Module
abstract_dataset |
Enthält die abstrakte Basisklasse für Datasets in Azure Machine Learning. |
abstract_datastore |
Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure-Speicherdiensten speichern. |
azure_data_lake_datastore |
Enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure Data Lake Storage speichern. |
azure_my_sql_datastore |
Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure Database for MySQL speichern. |
azure_postgre_sql_datastore |
Enthält Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure Database for PostgreSQL speichern. |
azure_sql_database_datastore |
Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure SQL-Datenbank speichern. |
azure_storage_datastore |
Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Azure Blob Storage und Azure Files speichern. |
constants |
Konstanten, die im Paket azureml.data verwendet werden. Nur interne Verwendung. |
context_managers |
Enthält Funktionen zum Verwalten des Datenkontexts von Datenspeichern und Datasets. Nur interne Verwendung. |
data_reference |
Enthält Funktionen, die definieren, wie Verweise auf Daten in Datenspeichern erstellt werden. |
datacache |
Enthält Funktionen zum Verwalten von DatacacheStore und Datacache in Azure Machine Learning. |
datacache_client |
Nur interne Verwendung. |
datacache_consumption_config |
Enthält Funktionen für die Konfiguration der Datencachenutzung. |
datacache_singularity_settings |
Enthält Objekte, die für die Darstellung der Datacache-Singularitätseinstellungen erforderlich sind. |
datapath |
Dieses Modul enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern. Dieses Modul enthält die DataPath-Klasse, die den Speicherort der Daten darstellt, und die DataPathComputeBinding-Klasse, die darstellt, wie die Daten auf den Computezielen verfügbar gemacht werden. |
dataset_action_run |
Enthält Funktionen zur Verwaltung der Ausführung von Datasetaktionen. Dieses Modul bietet praktische Methoden zum Erstellen von Datasetaktionen und zum Abrufen ihrer Ergebnisse nach Abschluss. |
dataset_consumption_config |
Enthält Funktionalität für die Konfiguration der Datasetnutzung. |
dataset_definition |
Enthält Funktionen zum Verwalten von Datasetdefinitionen und deren Vorgängen. Hinweis Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Enthält Ausnahmen für die Fehlerbehandlung bei Datasets in Azure Machine Learning. |
dataset_factory |
Enthält Funktionen zum Erstellen von Datasets für Azure Machine Learning. |
dataset_profile |
Klasse zum Sammeln von Zusammenfassungsstatistiken für die von einem Dataflow erzeugten Daten. Die Funktionalität in diesem Modul umfasst das Sammeln von Informationen darüber, welche Ausführung das Profil erzeugt hat, unabhängig davon, ob das Profil veraltet ist oder nicht. |
dataset_profile_run |
Dieses Modul enthält die Konfiguration für die Überwachung der Ausführung des Datasetprofils in Azure Machine Learning. Die Funktionalität in diesem Modul umfasst die Verwaltung und Überwachung der DatasetProfileRun-Klasse, die einem Experimentobjekt und einer individuellen Ausführungs-ID zugeordnet ist. |
dataset_profile_run_config |
Enthält die Konfiguration zum Generieren einer statistischen Zusammenfassung von Datasets in Azure Machine Learning. Zur den Funktionen in diesem Modul gehören Methoden zum Übermitteln lokaler oder Remoteprofilausführungen und zum Visualisieren des Ergebnisses der übermittelten Profilausführung. |
dataset_snapshot |
Enthält Funktionen zum Verwalten von Datasetmomentaufnahme-Vorgängen. Hinweis Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Enthält Enumerationswerte, die mit Dataset verwendet werden. |
datastore_client |
Nur interne Verwendung. |
dbfs_datastore |
Enthält Funktionen für Datenspeicher, die Verbindungsinformationen im Databricks File System (DBFS) speichern. |
file_dataset |
Enthält Funktionen zum Verweisen auf einzelne oder mehrere Dateien in Datenspeichern oder öffentlichen URLs. Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zum Einstieg in die Arbeit mit einem Datei-Dataset finden Sie unter https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in einem HDFS-Cluster speichern. |
output_dataset_config |
Enthält Konfigurationen, die angeben, wie Ausgaben für einen Auftrag hochgeladen und zu einem Dataset höher gestuft werden sollen Weitere Informationen finden Sie im Artikel Erstellen von Azure Machine Learning-Datasets. |
sql_data_reference |
Dieses Modul enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern, die Verbindungsinformationen in SQL-Datenbanken speichern. |
stored_procedure_parameter |
Enthält Funktionen zum Erstellen eines Parameters, der an eine gespeicherte SQL-Prozedur übergeben werden soll. |
tabular_dataset |
Enthält Funktionen zum Darstellen von Daten in einem tabellarischen Format durch Analysieren der bereitgestellten Datei oder Dateiliste. Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook. |
Klassen
DataType |
Konfiguriert Spaltendatentypen für ein in Azure Machine Learning erstelltes Dataset. DataType-Methoden werden in den |
DatacacheStore |
Hinweis Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Stellt eine Speicherabstraktion eines Azure Machine Learning-Speicherkontos dar. DatacacheStores werden Arbeitsbereichen angefügt und zum Speichern von Informationen im Zusammenhang mit der zugrunde liegenden Datacachelösung verwendet. Derzeit wird nur eine partitionierte Bloblösung unterstützt. Datacachestores definiert verschiedene Blobdatenspeicher, die für die Zwischenspeicherung verwendet werden können. Verwenden Sie diese Klasse, um Verwaltungsvorgänge durchzuführen, einschließlich Registrieren, Auflisten, Abrufen und Aktualisieren von Datacachestores.
DatacacheStores für jeden Dienst werden mit den Ruft einen Datacache anhand des Namens ab. Dieser Aufruf sendet eine Anforderung an den Datacachedienst. |
FileDataset |
Stellt eine Sammlung von Dateiverweisen in Datenspeichern oder öffentlichen URLs dar, die in Azure Machine Learning verwendet werden sollen. Ein FileDataset definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen zum Laden von Daten aus der Datenquelle in Dateistreams. Daten werden erst aus der Quelle geladen, wenn FileDataset aufgefordert wird, Daten zu liefern. Ein FileDataset wird mit der from_files-Methode der FileDatasetFactory-Klasse erstellt. Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zum Einstieg in die Arbeit mit einem Datei-Dataset finden Sie unter https://aka.ms/filedataset-samplenotebook. Initialisieren Sie das FileDataset-Objekt. Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der FileDatasetFactory -Klasse erstellt werden. |
HDFSOutputDatasetConfig |
Gibt an, wie die Ausgabe in einem HDFS-Pfad durchgeführt und zu einem Dataset vom Typ „FileDataset“ höher gestuft wird. Initialisieren Sie eine HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Hinweis Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Gibt an, wie die Ausgabe einer Ausführung verknüpft und zu einem Dataset vom Typ „FileDataset“ höher gestuft wird Mit LinkFileOutputDatasetConfig können Sie ein Dateidataset als Ausgabedataset verknüpfen.
Initialisieren Sie eine LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Hinweis Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Gibt an, wie die Ausgabe einer Ausführung verknüpft und als tabellarisches Dataset (TabularDataset) höher gestuft wird. Mit LinkTabularOutputDatasetConfig können Sie eine Datei tabellarisch als Ausgabedataset verknüpfen.
Initialisieren Sie eine LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Gibt an, wie die Ausgabe einer Ausführung kopiert und als Dataset vom Typ „FileDataset“ höher gestuft wird. Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert. Beispiel für die Nichtübergabe von Argumenten:
Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren unter dem Namen „foo“:
Initialisieren Sie eine OutputFileDatasetConfig-Datei. Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert. Beispiel für die Nichtübergabe von Argumenten:
Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren unter dem Namen „foo“:
|
TabularDataset |
Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll. Ein tabellarisches Dataset (TabularDataset) definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in eine tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn das TabularDataset zur Übermittlung von Daten aufgefordert wird. Ein TabularDataset wird mit Methoden wie from_delimited_files aus der TabularDatasetFactory-Klasse erstellt. Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook. Initialisieren Sie ein TabularDataset-Objekt. Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory -Klasse erstellt werden. |