DatasetSnapshot クラス

スナップを取得して、その状態を返し、データフレームに変換する操作を使用して、データセット スナップショットを管理します。

Note

このクラスは非推奨とされます。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

DataSnapshot オブジェクトは、Dataset クラスの create_snapshot メソッドから返されます。

データセット スナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。

データセット スナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots

継承
builtins.object
DatasetSnapshot

コンストラクター

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

パラメーター

名前 説明
workspace
必須
<xref:azureml.core.Workspace.>

データセットが登録されるワークスペース。

snapshot_name
必須
str

データセット スナップショットの名前。

dataset_id
必須
str

データセットの ID。

definition_version
必須
str

データセットの定義バージョン。

time_stamp
必須

スナップショットの作成時刻。

profile_action_id
必須
str

スナップショット プロファイル アクション ID。

datastore_name
必須
str

スナップショット データ ストア名。

relative_path
必須
str

スナップショット データへの相対パス。

dataset_name
必須
str

データセットの名前です。

メソッド

compare_profiles

現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

get

スナップショット名でデータセットのスナップショットを取得します。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

get_profile

データセット スナップショットのプロファイルを取得します。

get_status

データセット スナップショットの作成状態を取得します。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかをチェックします。

to_pandas_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。

to_spark_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。

wait_for_completion

DatasetSnapshot の生成が完了するまで待ちます。

compare_profiles

現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前 説明
rhs_dataset_snapshot
必須

比較対象のデータセット スナップショット。

include_columns

比較対象の列名の一覧。

規定値: None
exclude_columns

比較対象外の列名の一覧。

規定値: None
histogram_compare_method

比較方法を記述する列挙型 (例: WASSERSTEIN または ENERGY)。

規定値: HistogramCompareMethod.WASSERSTEIN

戻り値

説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

プロファイルの違い。

get

スナップショット名でデータセットのスナップショットを取得します。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

パラメーター

名前 説明
workspace
必須

データセットが登録されるワークスペース。

snapshot_name
必須
str

データセット スナップショットの名前。

dataset_name
必須

データセットの名前です。

dataset_id
必須

データセットの ID。

戻り値

説明

DatasetSnapshot オブジェクト。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

static get_all(workspace, dataset_name)

パラメーター

名前 説明
workspace
必須

データセットが登録されるワークスペース。

dataset_name
必須

データセットの名前です。

戻り値

説明

データセット スナップショットの一覧。

get_profile

データセット スナップショットのプロファイルを取得します。

get_profile()

戻り値

説明
<xref:azureml.dataprep.DataProfile>

データセット スナップショットの DataProfile

get_status

データセット スナップショットの作成状態を取得します。

get_status()

戻り値

説明
str

データセット スナップショットの状態。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかをチェックします。

is_data_snapshot_available()

戻り値

説明

データ スナップショットが使用可能な場合は True です。

to_pandas_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。

to_pandas_dataframe()

戻り値

説明

Pandas データフレーム。

注釈

メモリ内で完全に具体化された Pandas データフレーム。 スナップショットが create_data_snapshot=False で作成された場合は、例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available 関数を使用します。

to_spark_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。

to_spark_dataframe()

戻り値

説明

Spark データフレーム。

注釈

返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。 スナップショットが create_data_snapshot=False で作成された場合 は、データにアクセスしようとするときに例外がスローされます。 スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available を使用します。

wait_for_completion

DatasetSnapshot の生成が完了するまで待ちます。

wait_for_completion(show_output=True, status_update_frequency=10)

パラメーター

名前 説明
show_output

メソッドが出力を出力するかどうかを示します。

規定値: True
status_update_frequency
int

アクションの実行状態の更新間隔 (秒単位)。

規定値: 10

属性

dataset_id

データセット ID を取得します。

戻り値

説明
str

データセット ID。

name

データセット スナップショット名を取得します。

戻り値

説明
str

データセット スナップショット名。

workspace

データセットが登録される Azure Machine Learning ワークスペースを取得します。

戻り値

説明

データセットが登録されるワークスペース。