DatasetSnapshot クラス

リファレンス

スナップを取得して、その状態を返し、データフレームに変換する操作を使用して、データセットスナップショットを管理します。

Note

このクラスは非推奨とされます。詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

DataSnapshot オブジェクトは、Dataset クラスの create_snapshot メソッドから返されます。

データセットスナップショットは、プロファイルとデータのオプションの具体化されたコピーの組み合わせです。

データセットスナップショットの詳細については、以下を参照してください。 https://aka.ms/azureml/howto/createsnapshots

継承: builtins.object

DatasetSnapshot

コンストラクター

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

パラメーター

名前	説明
workspace 必須	<xref:azureml.core.Workspace.> データセットが登録されるワークスペース。
snapshot_name 必須	str データセットスナップショットの名前。
dataset_id 必須	str データセットの ID。
definition_version 必須	str データセットの定義バージョン。
time_stamp 必須	datetime スナップショットの作成時刻。
profile_action_id 必須	str スナップショットプロファイルアクション ID。
datastore_name 必須	str スナップショットデータストア名。
relative_path 必須	str スナップショットデータへの相対パス。
dataset_name 必須	str データセットの名前です。

メソッド

compare_profiles	現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。プロファイルが存在しない場合、このメソッドは例外を発生させます。
get	スナップショット名でデータセットのスナップショットを取得します。
get_all	指定されたデータセットのすべてのスナップショットを取得します。
get_profile	データセットスナップショットのプロファイルを取得します。
get_status	データセットスナップショットの作成状態を取得します。
is_data_snapshot_available	スナップショットの具体化されたコピーが使用可能かどうかをチェックします。
to_pandas_dataframe	スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。
to_spark_dataframe	スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。
wait_for_completion	DatasetSnapshot の生成が完了するまで待ちます。

compare_profiles

現在のデータセットのプロファイルを rhs_dataset プロファイルと比較します。

プロファイルが存在しない場合、このメソッドは例外を発生させます。

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前	説明
rhs_dataset_snapshot 必須	DatasetSnapshot 比較対象のデータセットスナップショット。
include_columns	list[str] 比較対象の列名の一覧。規定値: None
exclude_columns	list[str] 比較対象外の列名の一覧。規定値: None
histogram_compare_method	HistogramCompareMethod 比較方法を記述する列挙型 (例: WASSERSTEIN または ENERGY)。規定値: HistogramCompareMethod.WASSERSTEIN

戻り値

型	説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	プロファイルの違い。

get

スナップショット名でデータセットのスナップショットを取得します。

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録されるワークスペース。
snapshot_name 必須	str データセットスナップショットの名前。
dataset_name 必須	データセットの名前です。
dataset_id 必須	uuid データセットの ID。

戻り値

型	説明
DatasetSnapshot	DatasetSnapshot オブジェクト。

get_all

指定されたデータセットのすべてのスナップショットを取得します。

static get_all(workspace, dataset_name)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録されるワークスペース。
dataset_name 必須	データセットの名前です。

戻り値

型	説明
list[DatasetSnapshot]	データセットスナップショットの一覧。

get_profile

データセットスナップショットのプロファイルを取得します。

get_profile()

戻り値

型	説明
<xref:azureml.dataprep.DataProfile>	データセットスナップショットの DataProfile

get_status

データセットスナップショットの作成状態を取得します。

get_status()

戻り値

型	説明
str	データセットスナップショットの状態。

is_data_snapshot_available

スナップショットの具体化されたコピーが使用可能かどうかをチェックします。

is_data_snapshot_available()

戻り値

型	説明
bool	データスナップショットが使用可能な場合は True です。

to_pandas_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Pandas データフレームを作成します。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	Pandas データフレーム。

注釈

メモリ内で完全に具体化された Pandas データフレーム。スナップショットが create_data_snapshot=False で作成された場合は、例外がスローされます。スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available 関数を使用します。

to_spark_dataframe

スナップショットと一緒に保存されたデータを読み込むことで、Spark データフレームを作成します。

to_spark_dataframe()

戻り値

型	説明
DataFrame	Spark データフレーム。

注釈

返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。スナップショットが create_data_snapshot=False で作成された場合は、データにアクセスしようとするときに例外がスローされます。スナップショットにデータが含まれているかどうかを確認するには、is_data_snapshot_available を使用します。

wait_for_completion

DatasetSnapshot の生成が完了するまで待ちます。

wait_for_completion(show_output=True, status_update_frequency=10)

パラメーター

名前	説明
show_output	bool メソッドが出力を出力するかどうかを示します。規定値: True
status_update_frequency	int アクションの実行状態の更新間隔 (秒単位)。規定値: 10

属性

dataset_id

データセット ID を取得します。

戻り値

型	説明
str	データセット ID。

name

データセットスナップショット名を取得します。

戻り値

型	説明
str	データセットスナップショット名。

workspace

データセットが登録される Azure Machine Learning ワークスペースを取得します。

戻り値

型	説明
Workspace	データセットが登録されるワークスペース。

次の方法で共有

DatasetSnapshot クラス

コンストラクター

パラメーター

メソッド

compare_profiles

パラメーター

戻り値

get

パラメーター

戻り値

get_all

パラメーター

戻り値

get_profile

戻り値

get_status

戻り値

is_data_snapshot_available

戻り値

to_pandas_dataframe

戻り値

注釈

to_spark_dataframe

戻り値

注釈

wait_for_completion

パラメーター

属性

dataset_id

戻り値

name

戻り値

workspace

戻り値

フィードバック

その他のリソース