DatasetSnapshot Třída
Spravuje snímky datových sad pomocí operací, které můžou získat přichycení, vrátit její stav a převést ho na datový rámec.
Poznámka
Tato třída je zastaralá. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
Objekt DataSnapshot je vrácen z create_snapshot metody Dataset třídy .
Snímek datové sady je kombinací profilu a volitelné materializované kopie dat.
Další informace o snímcích datových sad najdete na https://aka.ms/azureml/howto/createsnapshots
- Dědičnost
-
builtins.objectDatasetSnapshot
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
<xref:azureml.core.Workspace.>
Pracovní prostor, ve který je datová sada zaregistrovaná. |
snapshot_name
Vyžadováno
|
Název snímku datové sady. |
dataset_id
Vyžadováno
|
Identifikátor datové sady. |
definition_version
Vyžadováno
|
Definiční verze datové sady. |
time_stamp
Vyžadováno
|
Čas vytvoření snímku. |
profile_action_id
Vyžadováno
|
ID akce profilu snímku. |
datastore_name
Vyžadováno
|
Název úložiště dat snímku. |
relative_path
Vyžadováno
|
Relativní cesta k datům snímku. |
dataset_name
Vyžadováno
|
Název datové sady. |
Metody
compare_profiles |
Porovnejte aktuální profil datové sady s profilem rhs_dataset. Pokud profily neexistují, tato metoda vyvolá výjimku. |
get |
Získejte snímek datové sady podle názvu snímku. |
get_all |
Získejte všechny snímky dané datové sady. |
get_profile |
Získejte profil snímku datové sady. |
get_status |
Získejte stav vytvoření snímku datové sady. |
is_data_snapshot_available |
Zkontrolujte, jestli je dostupná materializovaná kopie snímku. |
to_pandas_dataframe |
Vytvořte datový rámec Pandas načtením dat uložených se snímkem. |
to_spark_dataframe |
Vytvořte datový rámec Sparku načtením dat uložených se snímkem. |
wait_for_completion |
Počkejte na dokončení generování DatasetSnapshot. |
compare_profiles
Porovnejte aktuální profil datové sady s profilem rhs_dataset.
Pokud profily neexistují, tato metoda vyvolá výjimku.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametry
Name | Description |
---|---|
rhs_dataset_snapshot
Vyžadováno
|
Snímek datové sady, se kterým se má porovnat. |
include_columns
|
Seznam názvů sloupců, které se mají zahrnout do porovnání. Default value: None
|
exclude_columns
|
Seznam názvů sloupců, které mají být vyloučeny z porovnání. Default value: None
|
histogram_compare_method
|
Výčet popisující metodu porovnání, například: WASSERSTEIN nebo ENERGY. Default value: HistogramCompareMethod.WASSERSTEIN
|
Návraty
Typ | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Rozdíl mezi profily. |
get
Získejte snímek datové sady podle názvu snímku.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve který je datová sada zaregistrovaná. |
snapshot_name
Vyžadováno
|
Název snímku datové sady. |
dataset_name
Vyžadováno
|
Název datové sady. |
dataset_id
Vyžadováno
|
Identifikátor datové sady. |
Návraty
Typ | Description |
---|---|
A DatasetSnapshot objekt. |
get_all
Získejte všechny snímky dané datové sady.
static get_all(workspace, dataset_name)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor, ve který je datová sada zaregistrovaná. |
dataset_name
Vyžadováno
|
Název datové sady. |
Návraty
Typ | Description |
---|---|
Seznam snímků datových sad |
get_profile
Získejte profil snímku datové sady.
get_profile()
Návraty
Typ | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile snímku datové sady |
get_status
Získejte stav vytvoření snímku datové sady.
get_status()
Návraty
Typ | Description |
---|---|
Stav snímku datové sady. |
is_data_snapshot_available
Zkontrolujte, jestli je dostupná materializovaná kopie snímku.
is_data_snapshot_available()
Návraty
Typ | Description |
---|---|
Hodnota True, pokud je k dispozici snímek dat. |
to_pandas_dataframe
Vytvořte datový rámec Pandas načtením dat uložených se snímkem.
to_pandas_dataframe()
Návraty
Typ | Description |
---|---|
Datový rámec Pandas. |
Poznámky
Datový rámec Pandas je plně materializovaný v paměti. Pokud byl snímek vytvořen pomocí create_data_snapshot=False
příkazu , vyvolá se výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte funkci is_data_snapshot_available.
to_spark_dataframe
Vytvořte datový rámec Sparku načtením dat uložených se snímkem.
to_spark_dataframe()
Návraty
Typ | Description |
---|---|
Datový rámec Sparku. |
Poznámky
Vrácený datový rámec Sparku je pouze plánem provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují. Pokud byl snímek vytvořen pomocí create_data_snapshot=False
příkazu , vyvolá se při pokusu o přístup k datům výjimka. Pokud chcete zkontrolovat, jestli snímek obsahuje data, použijte is_data_snapshot_available.
wait_for_completion
Počkejte na dokončení generování DatasetSnapshot.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametry
Name | Description |
---|---|
show_output
|
Označuje, jestli metoda vytiskne výstup. Default value: True
|
status_update_frequency
|
Frekvence aktualizace stavu spuštění akce v sekundách Default value: 10
|
Atributy
dataset_id
name
workspace
Získejte pracovní prostor Azure Machine Learning, ve kterém je datová sada zaregistrovaná.
Návraty
Typ | Description |
---|---|
Pracovní prostor, ve kterém je datová sada zaregistrovaná. |