DatasetSnapshot Klasa

Zarządza migawkami zestawu danych za pomocą operacji, aby uzyskać przystawkę, zwrócić jej stan i przekonwertować ją na ramkę danych.

Uwaga

Ta klasa jest przestarzała. Aby uzyskać więcej informacji, zobacz https://aka.ms/dataset-deprecation.

Obiekt DataSnapshot jest zwracany z create_snapshot metody Dataset klasy .

Migawka zestawu danych to kombinacja profilu i opcjonalnej zmaterializowanej kopii danych.

Aby dowiedzieć się więcej na temat migawek zestawów danych, przejdź do strony https://aka.ms/azureml/howto/createsnapshots

Dziedziczenie
builtins.object
DatasetSnapshot

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametry

Nazwa Opis
workspace
Wymagane
<xref:azureml.core.Workspace.>

Obszar roboczy, w który jest zarejestrowany zestaw danych.

snapshot_name
Wymagane
str

Nazwa migawki zestawu danych.

dataset_id
Wymagane
str

Identyfikator zestawu danych.

definition_version
Wymagane
str

Wersja definicji zestawu danych.

time_stamp
Wymagane

Czas tworzenia migawki.

profile_action_id
Wymagane
str

Identyfikator akcji profilu migawki.

datastore_name
Wymagane
str

Nazwa magazynu danych migawek.

relative_path
Wymagane
str

Ścieżka względna do danych migawki.

dataset_name
Wymagane
str

Nazwa zestawu danych.

Metody

compare_profiles

Porównaj bieżący profil zestawu danych z profilem rhs_dataset.

Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.

get

Pobierz migawkę zestawu danych według nazwy migawki.

get_all

Pobierz wszystkie migawki danego zestawu danych.

get_profile

Pobierz profil migawki zestawu danych.

get_status

Pobierz stan tworzenia migawki zestawu danych.

is_data_snapshot_available

Sprawdź, czy zmaterializowana kopia migawki jest dostępna.

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.

wait_for_completion

Poczekaj na ukończenie generowania zestawu danychSnapshot.

compare_profiles

Porównaj bieżący profil zestawu danych z profilem rhs_dataset.

Jeśli profile nie istnieją, ta metoda zgłosi wyjątek.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametry

Nazwa Opis
rhs_dataset_snapshot
Wymagane

Migawka zestawu danych do porównania.

include_columns

Lista nazw kolumn do ujęć w porównaniu.

Domyślna wartość: None
exclude_columns

Lista nazw kolumn, które mają być wykluczone w porównaniu.

Domyślna wartość: None
histogram_compare_method

Wyliczenie opisujące metodę porównania, na przykład: WASSERSTEIN lub ENERGY.

Domyślna wartość: HistogramCompareMethod.WASSERSTEIN

Zwraca

Typ Opis
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Różnica między profilami.

get

Pobierz migawkę zestawu danych według nazwy migawki.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametry

Nazwa Opis
workspace
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

snapshot_name
Wymagane
str

Nazwa migawki zestawu danych.

dataset_name
Wymagane

Nazwa zestawu danych.

dataset_id
Wymagane

Identyfikator zestawu danych.

Zwraca

Typ Opis

Obiekt DatasetSnapshot.

get_all

Pobierz wszystkie migawki danego zestawu danych.

static get_all(workspace, dataset_name)

Parametry

Nazwa Opis
workspace
Wymagane

Obszar roboczy, w który jest zarejestrowany zestaw danych.

dataset_name
Wymagane

Nazwa zestawu danych.

Zwraca

Typ Opis

Lista migawek zestawu danych

get_profile

Pobierz profil migawki zestawu danych.

get_profile()

Zwraca

Typ Opis
<xref:azureml.dataprep.DataProfile>

Plik DataProfile migawki zestawu danych

get_status

Pobierz stan tworzenia migawki zestawu danych.

get_status()

Zwraca

Typ Opis
str

Stan migawki zestawu danych.

is_data_snapshot_available

Sprawdź, czy zmaterializowana kopia migawki jest dostępna.

is_data_snapshot_available()

Zwraca

Typ Opis

Wartość True, jeśli migawka danych jest dostępna.

to_pandas_dataframe

Utwórz ramkę danych biblioteki Pandas, ładując dane zapisane za pomocą migawki.

to_pandas_dataframe()

Zwraca

Typ Opis

Ramka danych biblioteki Pandas.

Uwagi

Ramka danych biblioteki Pandas jest w pełni zmaterializowana w pamięci. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , zgłaszany jest wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj funkcji is_data_snapshot_available.

to_spark_dataframe

Utwórz ramkę danych platformy Spark, ładując dane zapisane za pomocą migawki.

to_spark_dataframe()

Zwraca

Typ Opis

Ramka danych platformy Spark.

Uwagi

Zwrócona ramka danych platformy Spark jest tylko planem wykonywania i nie zawiera żadnych danych, ponieważ ramki danych platformy Spark są obliczane z opóźnieniem. Jeśli migawka została utworzona za pomocą create_data_snapshot=Falsepolecenia , podczas próby uzyskania dostępu do danych jest zgłaszany wyjątek. Aby sprawdzić, czy migawka zawiera dane, użyj polecenia is_data_snapshot_available.

wait_for_completion

Poczekaj na ukończenie generowania zestawu danychSnapshot.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametry

Nazwa Opis
show_output

Wskazuje, czy metoda wyświetli dane wyjściowe.

Domyślna wartość: True
status_update_frequency
int

Częstotliwość aktualizacji stanu uruchomienia akcji w sekundach.

Domyślna wartość: 10

Atrybuty

dataset_id

Pobierz identyfikator zestawu danych.

Zwraca

Typ Opis
str

Identyfikator zestawu danych.

name

Pobierz nazwę migawki zestawu danych.

Zwraca

Typ Opis
str

Nazwa migawki zestawu danych.

workspace

Pobierz obszar roboczy usługi Azure Machine Learning, w którym zarejestrowano zestaw danych.

Zwraca

Typ Opis

Obszar roboczy, w którym zarejestrowano zestaw danych.