AbstractDataset クラス
Azure Machine Learning のデータセットの基底クラス。
データセットのインスタンスを作成するには、TabularDatasetFactory クラスおよび FileDatasetFactory クラスを参照してください。
Class AbstractDataset コンストラクター。
このコンストラクターは、直接呼び出されることは想定されていません。 データセットは、クラスとFileDatasetFactoryクラスを使用してTabularDatasetFactory作成することを目的としています。
- 継承
-
builtins.objectAbstractDataset
コンストラクター
AbstractDataset()
メソッド
add_tags |
このデータセットのタグのディクショナリにキーと値のペアを追加します。 |
as_named_input |
実行で具体化されたデータセットを取得するために使用される、このデータセットの名前を指定します。 |
get_all |
ワークスペースに登録されているすべてのデータセットを取得します。 |
get_by_id |
ワークスペースに保存されているデータセットを取得します。 |
get_by_name |
登録名によって、ワークスペースから登録されたデータセットを取得します。 |
get_partition_key_values |
partition_keys の一意のキー値を返します。 partition_keys がパーティション キーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keys の一意のキー値を返します。partition_keys が None の場合は、既定で、このデータセットのパーティション キーの完全なセットを取得することにより、一意のキーの組み合わせを返します
|
register |
データセットを指定したワークスペースに登録します。 |
remove_tags |
このデータセットのタグのディクショナリから、指定したキーを削除します。 |
unregister_all_versions |
このデータセットの登録名の下にあるすべてのバージョンを、ワークスペースから登録解除します。 |
update |
データセットのインプレース更新を実行します。 |
add_tags
このデータセットのタグのディクショナリにキーと値のペアを追加します。
add_tags(tags=None)
パラメーター
名前 | 説明 |
---|---|
tags
必須
|
追加するタグの辞書。 |
戻り値
型 | 説明 |
---|---|
更新されたデータセット オブジェクト。 |
as_named_input
実行で具体化されたデータセットを取得するために使用される、このデータセットの名前を指定します。
as_named_input(name)
パラメーター
名前 | 説明 |
---|---|
name
必須
|
実行に対するデータセットの名前。 |
戻り値
型 | 説明 |
---|---|
実行で Dataset を具体化する方法を記述する構成オブジェクト。 |
注釈
ここでの名前は、Azure Machine Learning の実行の内部でのみ適用されます。 名前に使用できるのは英数字とアンダースコア文字だけなので、環境変数として使用できます。 この名前を使用すると、次の 2 つの方法を使って、実行のコンテキストでデータセットを取得できます。
環境変数:
名前は環境変数の名前になり、具体化されたデータセットは環境変数の値として使用できます。 データセットがダウンロードまたはマウントされると、値はダウンロードまたはマウントされたパスになります。 次に例を示します。
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Note
データセットが直接モードに設定されている場合、値はデータセット ID になります。 その場合、
Dataset.get_by_id(os.environ['foo']) を実行してデータセット オブジェクトを取得できます
Run.input_datasets:
これはディクショナリであり、このメソッドで指定したデータセット名がキーになり、具体化されたデータセットが値になります。 ダウンロードおよびマウントされたデータセットの場合、値はダウンロードまたはマウントされたパスになります。 直接モードの場合、値は、ジョブ送信スクリプトで指定したものと同じデータセット オブジェクトになります。
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
ワークスペースに登録されているすべてのデータセットを取得します。
static get_all(workspace)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
戻り値
型 | 説明 |
---|---|
登録名によってキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。 |
get_by_id
ワークスペースに保存されているデータセットを取得します。
static get_by_id(workspace, id, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが保存される既存の AzureML ワークスペース。 |
id
必須
|
データセットの ID。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 データセットが登録されている場合は、その登録名とバージョンも返されます。 |
get_by_name
登録名によって、ワークスペースから登録されたデータセットを取得します。
static get_by_name(workspace, name, version='latest', **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
name
必須
|
登録名。 |
version
必須
|
登録バージョン。 既定値は 'latest' です。 |
戻り値
型 | 説明 |
---|---|
登録されているデータセット オブジェクト。 |
get_partition_key_values
partition_keys の一意のキー値を返します。
partition_keys がパーティション キーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keys の一意のキー値を返します。partition_keys が None の場合は、既定で、このデータセットのパーティション キーの完全なセットを取得することにより、一意のキーの組み合わせを返します
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
パラメーター
名前 | 説明 |
---|---|
partition_keys
必須
|
パーティション キー |
register
データセットを指定したワークスペースに登録します。
register(workspace, name, description=None, tags=None, create_new_version=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットを登録するワークスペース。 |
name
必須
|
登録するデータセットの名前。 |
description
必須
|
データセットのテキストの説明。 既定値は None です。 |
tags
必須
|
データセットを提供するキー値タグのディクショナリ。 既定値は None です。 |
create_new_version
必須
|
指定した名前の新しいバージョンとしてデータセットを登録するためのブール値。 |
戻り値
型 | 説明 |
---|---|
登録されているデータセット オブジェクト。 |
remove_tags
このデータセットのタグのディクショナリから、指定したキーを削除します。
remove_tags(tags=None)
パラメーター
名前 | 説明 |
---|---|
tags
必須
|
削除するキーのリスト。 |
戻り値
型 | 説明 |
---|---|
更新されたデータセット オブジェクト。 |
unregister_all_versions
このデータセットの登録名の下にあるすべてのバージョンを、ワークスペースから登録解除します。
unregister_all_versions()
注釈
この操作では、ソース データは変更されません。
update
データセットのインプレース更新を実行します。
update(description=None, tags=None)
パラメーター
名前 | 説明 |
---|---|
description
必須
|
データセットに使用する新しい説明。 この説明により、既存の説明が置き換えられます。 既定値は既存の説明です。 説明をクリアするには、空の文字列を入力します。 |
tags
必須
|
データセットを更新するタグのディクショナリ。 これらのタグで、データセットの既存のタグが置き換えられます。 既定値は既存のタグです。 タグをクリアするには、空のディクショナリを入力します。 |
戻り値
型 | 説明 |
---|---|
更新されたデータセット オブジェクト。 |
属性
data_changed_time
ソース データが変更された日時を返します。
戻り値
型 | 説明 |
---|---|
ソース データで最新の変更が発生した日時。 |
注釈
データの変更日時は、ファイル ベースのデータ ソースで使用できます。 変更がいつ発生したのかのチェックがデータ ソースでサポートされていない場合は、None が返されます。