DatasetDefinition Třída
Definuje řadu kroků, které určují, jak číst a transformovat data v datové sadě.
Poznámka
Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
Datová sada zaregistrovaná v pracovním prostoru Azure Machine Learning může mít několik definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice.
Pro neregistrované datové sady existuje pouze jedna definice.
Definice datových sad podporují všechny transformace uvedené pro <xref:azureml.dataprep.Dataflow> třídu: viz http://aka.ms/azureml/howto/transformdata. Další informace o definicích datových sad najdete na .https://aka.ms/azureml/howto/versiondata
Inicializujte objekt definice datové sady.
- Dědičnost
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve který je datová sada zaregistrovaná. |
dataset_id
Vyžadováno
|
Identifikátor datové sady. |
version_id
Vyžadováno
|
Verze definice. |
dataflow
Vyžadováno
|
Objekt toku dat. |
dataflow_json
Vyžadováno
|
Kód JSON toku dat. |
notes
Vyžadováno
|
Volitelné informace o definici. |
etag
Vyžadováno
|
Etag. |
created_time
Vyžadováno
|
Čas vytvoření definice. |
modified_time
Vyžadováno
|
Čas poslední změny definice. |
deprecated_by_dataset_id
Vyžadováno
|
ID datové sady, která tuto definici zastarává. |
deprecated_by_definition_version
Vyžadováno
|
Verze definice, která tuto definici zastarává. |
data_path
Vyžadováno
|
Cesta k datům. |
dataset
Vyžadováno
|
Nadřazený objekt Dataset. |
Metody
archive |
Archivace definice datové sady |
create_snapshot |
Vytvořte snímek registrované datové sady. |
deprecate |
Vyřadíte datovou sadu s ukazatelem na novou datovou sadu. |
reactivate |
Znovu aktivujte definici datové sady. Funguje s definicemi datových sad, které jsou zastaralé nebo archivované. |
to_pandas_dataframe |
Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady. |
to_spark_dataframe |
Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat. |
archive
Archivace definice datové sady
archive()
Návraty
Typ | Description |
---|---|
Žádné |
Poznámky
Po archivaci dojde při každém pokusu o načtení datové sady k chybě. Pokud se archivuje omylem, aktivujte ho pomocí příkazu reactivate .
create_snapshot
Vytvořte snímek registrované datové sady.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametry
Name | Description |
---|---|
snapshot_name
Vyžadováno
|
Název snímku. Názvy snímků by měly být v rámci datové sady jedinečné. |
compute_target
|
ComputeTarget nebo
str
Cílový výpočetní objekt pro vytvoření profilu snímku. Pokud tento parametr vynecháte, použije se místní výpočetní prostředí. Default value: None
|
create_data_snapshot
|
Pokud má hodnotu True, vytvoří se materializovaná kopie dat. Default value: False
|
target_datastore
|
Cílové úložiště dat, kam chcete uložit snímek. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru. Default value: None
|
Návraty
Typ | Description |
---|---|
A DatasetSnapshot objekt. |
Poznámky
Snímky zachycují souhrnnou statistiku k určitému bodu v čase podkladových dat a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete na .https://aka.ms/azureml/howto/createsnapshots
deprecate
Vyřadíte datovou sadu s ukazatelem na novou datovou sadu.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametry
Name | Description |
---|---|
deprecate_by_dataset_id
Vyžadováno
|
ID datové sady, které je zodpovědné za vyřazení aktuální datové sady. |
deprecated_by_definition_version
|
Verze definice datové sady, která je zodpovědná za vyřazení aktuální definice datové sady. Default value: None
|
Návraty
Typ | Description |
---|---|
Žádné |
Poznámky
Zastaralé definice datových sad budou protokolovat upozornění při jejich spotřebování. Pokud chcete zcela zablokovat využití definice datové sady, archivujte ji.
Pokud je definice datové sady omylem zastaralá, aktivujte ji pomocí příkazu reactivate .
reactivate
Znovu aktivujte definici datové sady.
Funguje s definicemi datových sad, které jsou zastaralé nebo archivované.
reactivate()
Návraty
Typ | Description |
---|---|
Žádné |
to_pandas_dataframe
Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.
to_pandas_dataframe()
Návraty
Typ | Description |
---|---|
Datový rámec Pandas. |
Poznámky
Vrátí datový rámec Pandas plně materializovaný v paměti.
to_spark_dataframe
Vytvořte datový rámec Sparku, který může spustit kanál transformace definovaný tímto tokem dat.
to_spark_dataframe()
Návraty
Typ | Description |
---|---|
Datový rámec Sparku. |
Poznámky
Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.