Dataset クラス

Azure Machine Learning でデータを探索、変換、および管理するためのリソースを表します。

データセットは、Datastore 内またはパブリック Web URL の背後にあるデータへの参照です。

このクラスで非推奨のメソッドについては、改善された API の AbstractDataset クラスを確認してください。

次のデータセットの種類がサポートされています。

  • TabularDataset は、指定されたファイルまたはファイルのリストを解析することで作成されたデータを表形式で表します。

  • FileDataset は、データストア内またはパブリック URL からの 1 つまたは複数のファイルを参照します。

データセットの使用を開始するには、「データセットの 追加 & 登録する」の記事を参照するか、ノートブック https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebookを参照してください。

Dataset オブジェクトを初期化します。

ワークスペースに既に登録されているデータセットを取得するには、get メソッドを使用します。

継承
builtins.object
Dataset

コンストラクター

Dataset(definition, workspace=None, name=None, id=None)

パラメーター

名前 説明
definition
必須
<xref:azureml.data.DatasetDefinition>

データセットの定義。

workspace
必須

データセットが存在するワークスペース。

name
必須
str

データセットの名前です。

id
必須
str

データセットの一意識別子。

注釈

Dataset クラスは、対応するファクトリ メソッドを操作せずにデータセットを作成するために使用できる、2 つの便利なクラス属性 (FileTabular) を公開します。 たとえば、次の属性を使用してデータセットを作成します。

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

TabularDatasetFactory および FileDatasetFactory で定義されているクラスの対応するファクトリ メソッドを直接呼び出すことによって、新しい TabularDataset または FileDataset を作成することもできます。

次の例では、データストア内の 1 つのパスを指す TabularDataset を作成する方法を示します。


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

完全なサンプルは、https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb から入手できます

変数

名前 説明
azureml.core.Dataset.File

新しい FileDataset オブジェクトを作成するための FileDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.File.from_files()。

azureml.core.Dataset.Tabular

新しい TabularDataset オブジェクトを作成するための TabularDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.Tabular.from_delimited_files()。

メソッド

archive

アクティブまたは非推奨のデータセットをアーカイブします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

auto_read_files

指定したパスにあるファイルを分析し、新しいデータセットを返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

ファイルの読み取りには、Dataset.Tabular.from_* メソッドを使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

compare_profiles

現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。

これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右辺" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左辺" と見なされます。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

create_snapshot

登録されているデータセットのスナップショットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

delete_snapshot

データセットのスナップショットを名前別に削除します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

deprecate

ワークスペース内のアクティブなデータセットを別のデータセットで非推奨にします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

diff

現在のデータセットと rhs_dataset を比較します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_binary_files

バイナリ ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.File.from_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_delimited_files

区切られたファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_delimited_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Excel ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_json_files

JSON ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

JSON 行ファイルから読み取るには、代わりに Dataset.Tabular.from_json_lines_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_pandas_dataframe

Pandas データフレームから、登録されていないメモリ内データセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.register_pandas_dataframe を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_parquet_files

Parquet ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_parquet_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

from_sql_query

SQL クエリから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_sql_query を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

generate_profile

データセットの新しいプロファイルを生成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get

名前または ID を指定して、ワークスペースに既に存在するデータセットを取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに、get_by_name および get_by_id を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

get_all_snapshots

データセットのすべてのスナップショットを取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_by_id

ワークスペースに保存されているデータセットを取得します。

get_by_name

登録名によって、ワークスペースから登録されたデータセットを取得します。

get_definition

データセットの特定の定義を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_definitions

データセットのすべての定義を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_profile

以前に計算したデータセットの概要統計情報を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_snapshot

データセットのスナップショットを名前で取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

head

このデータセットから指定された数のレコードを取得し、それらをデータフレームとして返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

list

is_visible プロパティが False に等しいものを含む、ワークスペース内のすべてのデータセットを一覧表示します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに get_all を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

reactivate

アーカイブ済みまたは非推奨のデータセットを再アクティブ化します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

register

ワークスペースにデータセットを登録して、ワークスペースの他のユーザーが使用できるようにします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに register を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

sample

提供されたサンプリング方式とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

to_pandas_dataframe

このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

to_spark_dataframe

このデータセット定義によって定義された変換パイプラインを実行できる Spark データフレームを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

update

ワークスペースのデータセットの変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

update_definition

データセット定義を更新します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

archive

アクティブまたは非推奨のデータセットをアーカイブします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

archive()

戻り値

説明

なし。

注釈

アーカイブ後にデータセットを使用しようとすると、エラーが発生します。 誤ってアーカイブされた場合は、再アクティブ化によってアクティブ化されます。

auto_read_files

指定したパスにあるファイルを分析し、新しいデータセットを返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

ファイルの読み取りには、Dataset.Tabular.from_* メソッドを使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static auto_read_files(path, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みデータストア内のデータ パス、ローカル パス、または HTTP URL (CSV/TSV)。

include_path
必須

データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 複数のファイルを読み取り、特定のレコードの発生元のファイルを知りたい場合に便利です。 また、ファイル パスまたは名前の中の情報を列に含めたい場合にも便利です。

partition_format
必須
str

パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

Dataset オブジェクト。

注釈

ファイル形式と区切り記号が自動的に検出されるようにする場合は、このメソッドを使用します。

データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されるデータセットはワークスペースに登録されていません。

compare_profiles

現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。

これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右辺" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左辺" と見なされます。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前 説明
rhs_dataset
必須

2 つ目のデータセット。比較のための "右側" データセットとも呼ばれます。

profile_arguments
必須

特定のプロファイルを再取得する引数。

include_columns
必須

比較対象の列名の一覧。

exclude_columns
必須

比較対象外の列名の一覧。

histogram_compare_method
必須

比較方法を記述する列挙型 (例: Wasserstein または Energy)

戻り値

説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

2 つのデータセット プロファイルの違い。

注釈

これは、登録済みのデータセット専用です。 現在のデータセットのプロファイルが存在しない場合は、例外を発生させます。 登録されていないデータセットの場合は、profile.compare メソッドを使用します。

create_snapshot

登録されているデータセットのスナップショットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。 スナップショット名は、データセット内で一意である必要があります。

compute_target
必須

スナップショット プロファイルの作成を実行するためのオプションのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。

create_data_snapshot
必須

True の場合、データの具体化されたコピーが作成されます。

target_datastore
必須

スナップショットを保存するターゲット データストア。 省略した場合、スナップショットはワークスペースの既定のストレージに作成されます。

戻り値

説明

データセット スナップショット オブジェクト。

注釈

スナップショットは、基になるデータの特定の時点の概要統計情報と、データ自体のオプションのコピーがキャプチャします。 スナップショットの作成の詳細については、「https://aka.ms/azureml/howto/createsnapshots」を参照してください。

delete_snapshot

データセットのスナップショットを名前別に削除します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

delete_snapshot(snapshot_name)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。

戻り値

説明

なし。

注釈

これを使用すると、不要になったスナップショットに保存されたデータによって消費されるストレージを解放できます。

deprecate

ワークスペース内のアクティブなデータセットを別のデータセットで非推奨にします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

deprecate(deprecate_by_dataset_id)

パラメーター

名前 説明
deprecate_by_dataset_id
必須
str

データセット ID。このデータセットの代わりに使用されます。

戻り値

説明

なし。

注釈

非推奨のデータセットは、使用時に警告をログに記録します。 データセットを非推奨とすると、そのすべての定義が非推奨になります。

非推奨のデータセットは引き続き使用できます。 データセットの使用を完全にブロックするには、データセットをアーカイブします。

誤って非推奨化された場合は、再アクティブ化によってアクティブ化されます。

diff

現在のデータセットと rhs_dataset を比較します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

diff(rhs_dataset, compute_target=None, columns=None)

パラメーター

名前 説明
rhs_dataset
必須

別のデータセット。比較のための "右側" データセットとも呼ばれます。

compute_target
必須

差分を実行するためのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。

columns
必須

差分に含める列名の一覧。

戻り値

説明

データセット アクションの実行オブジェクト。

from_binary_files

バイナリ ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.File.from_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_binary_files(path)

パラメーター

名前 説明
path
必須
DataReference または str

登録されたデータストアまたはローカルパスのデータ パス。

戻り値

説明

データセット オブジェクト。

注釈

バイナリ データのストリームとしてファイルを読み取るには、このメソッドを使用します。 ファイルの読み取りごとに 1 つのファイル ストリーム オブジェクトを返します。 画像、ビデオ、オーディオ、またはその他のバイナリ データを読み取る場合は、このメソッドを使用します。

get_profilecreate_snapshot は、このメソッドによって作成されたデータセットに対しては想定どおりに動作しません。

返されるデータセットはワークスペースに登録されていません。

from_delimited_files

区切られたファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_delimited_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みデータストア内のデータ パス、ローカル パス、または HTTP URL。

separator
必須
str

列を分割するために使用する区切り記号。

header
必須

ファイルから読み取るときに列ヘッダーをどのように昇格するかを制御します。

encoding
必須

読み取るファイルのエンコーディング。

quoting
必須

引用符で囲まれた改行文字を処理する方法を指定します。 既定値 (False) は、改行文字が引用符で囲まれているかどうかに関係なく、改行文字を新しい行の開始として解釈します。 True に設定すると、引用符で囲まれた改行文字によって新しい行が生成されず、ファイルの読み取り速度が低下します。

infer_column_types
必須

列のデータ型が推論されるかどうかを示します。

skip_rows
必須
int

読み取り中のファイルでスキップする行の数。

skip_mode
必須

ファイルを読み取るときに行をスキップする方法を制御します。

comment
必須
str

読み取るファイル内のコメント行を示すために使用される文字。 この文字列で始まる行はスキップされます。

include_path
必須

データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。

archive_options
必須
<xref:azureml.dataprep.ArchiveOptions>

アーカイブの種類とエントリの glob パターンを含むアーカイブ ファイルのオプション。 現時点では、アーカイブの種類として ZIP のみがサポートされています。 たとえば、次のように指定します。


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

名前の末尾が "10-20.csv" であるすべてのファイルを ZIP で読み取ります。

partition_format
必須
str

パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

Dataset オブジェクト。

注釈

このメソッドは、使用するオプションを制御する場合に、区切られたテキスト ファイルを読み取るために使用します。

データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されるデータセットはワークスペースに登録されていません。

from_excel_files

Excel ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録されたデータストアまたはローカルパスのデータ パス。

sheet_name
必須
str

読み込む Excel シートの名前。 既定では、各 Excel ファイルから最初のシートを読み取ります。

use_column_headers
必須

最初の行を列見出しとして使用するかどうかを制御します。

skip_rows
必須
int

読み取り中のファイルでスキップする行の数。

include_path
必須

データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。

infer_column_types
必須

true の場合、列のデータ型が推論されます。

partition_format
必須
str

パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.xlsx' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

Dataset オブジェクト。

注釈

このメソッドは、.xlsx 形式の Excel ファイルを読み取るために使用します。 データは、各 Excel ファイルの 1 つのシートから読み取ることができます。 データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。 返されるデータセットはワークスペースに登録されていません。

from_json_files

JSON ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

JSON 行ファイルから読み取るには、代わりに Dataset.Tabular.from_json_lines_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

読み込みおよび解析を行うファイルまたはフォルダーへのパス。 ローカル パスまたは Azure BLOB の URL を指定できます。 グロビングはサポートされています。 たとえば、path = "./data*" を使用して、名前が "data" で始まるすべてのファイルを読み取ることができます。

encoding
必須

読み取るファイルのエンコーディング。

flatten_nested_arrays
必須

プログラムによる入れ子になった配列の処理を制御するプロパティ。 入れ子になった JSON 配列をフラット化することを選択した場合、行の数が非常に多くなる可能性があります。

include_path
必須

データの読み取りを行ったパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。

partition_format
必須
str

パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.json' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

ローカル データセット オブジェクト。

from_pandas_dataframe

Pandas データフレームから、登録されていないメモリ内データセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.register_pandas_dataframe を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

パラメーター

名前 説明
dataframe
必須

Pandas データフレーム。

path
必須

登録されたデータストアまたはローカル フォルダー パスのデータ パス。

in_memory
必須

ディスクに永続化するのではなく、メモリからデータフレームを読み取るかどうか。

戻り値

説明

DataSet オブジェクト。

注釈

このメソッドを使用して、Pandas データフレームをデータセット オブジェクトに変換します。 データがメモリからのものであるため、このメソッドによって作成されたデータセットを登録できません。

in_memory が False の場合、Pandas データフレームはローカルで CSV ファイルに変換されます。 pat が DataReference 型の場合、Pandas フレームはデータ ストアにアップロードされ、データセットは DataReference に基づいて作成されます。 ``path` がローカル フォルダーの場合は、削除できないローカル ファイルからデータセットが作成されます。

現在の DataReference がフォルダー パスではない場合に、例外を発生させます。

from_parquet_files

Parquet ファイルから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_parquet_files を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_parquet_files(path, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録されたデータストアまたはローカルパスのデータ パス。

include_path
必須

データの読み取りを行ったファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードがどのファイルから生成されたかを把握したい場合や、ファイル パスに有用な情報を保持する場合に便利です。

partition_format
必須
str

パスにパーティション形式を指定し、string 列を形式 '{x}' から、datetime 列を形式 '{x:yyyy/MM/dd/HH/mm/ss}' から作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置から始まり、ファイル パスの末尾までになります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.parquet' では、データが部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' を定義して、string 型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

Dataset オブジェクト。

注釈

Parquet ファイルを読み取るには、このメソッドを使用します。

データセットを作成した後、get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されるデータセットはワークスペースに登録されていません。

from_sql_query

SQL クエリから、登録されていないメモリ内のデータセットを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに Dataset.Tabular.from_sql_query を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static from_sql_query(data_source, query)

パラメーター

名前 説明
data_source
必須

Azure SQL データストアの詳細。

query
必須
str

データを読み取るために実行するクエリ。

戻り値

説明

ローカル データセット オブジェクト。

generate_profile

データセットの新しいプロファイルを生成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

generate_profile(compute_target=None, workspace=None, arguments=None)

パラメーター

名前 説明
compute_target
必須

スナップショット プロファイルの作成を実行するためのオプションのコンピューティング先。 省略した場合は、ローカル コンピューティングが使用されます。

workspace
必須

ワークスペース。一時的な (未登録の) データセットに必要です。

arguments
必須

プロファイルの引数。 有効な引数は次のとおりです。

  • bool 型の ' include_stype_counts '。 値が、電子メール アドレス、IP アドレス (V4/V6)、米国電話番号、米国郵便番号、緯度/経度など、よく知られているセマンティックの種類として表示されるかどうかを確認します。 これを有効にすると、パフォーマンスに影響します。

  • int 型の 'number_of_histogram_bins'。数値データに使用するヒストグラム ビンの数を表します。 既定値は 10 です。

戻り値

説明

データセット アクションの実行オブジェクト。

注釈

同期呼び出しは、完了するまでブロックします。 get_result を呼び出して、アクションの結果を取得します。

get

名前または ID を指定して、ワークスペースに既に存在するデータセットを取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに、get_by_name および get_by_id を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static get(workspace, name=None, id=None)

パラメーター

名前 説明
workspace
必須

データセットが作成された既存の AzureML ワークスペース。

name
必須
str

取得するデータセットの名前。

id
必須
str

ワークスペース内のデータセットの一意識別子。

戻り値

説明

指定された名前または ID を持つデータセット。

注釈

name または id のいずれかを指定できます。 次の場合は例外が発生します。

  • nameid の両方が指定されており、一致しない。

  • 指定された name または id を持つデータセットがワークスペースに見つからない。

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

get_all()

パラメーター

名前 説明
workspace
必須

データセットが登録された既存の AzureML ワークスペース。

戻り値

説明

登録名によってキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。

get_all_snapshots

データセットのすべてのスナップショットを取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_all_snapshots()

戻り値

説明

データセット スナップショットの一覧。

get_by_id

ワークスペースに保存されているデータセットを取得します。

get_by_id(id, **kwargs)

パラメーター

名前 説明
workspace
必須

データセットが保存される既存の AzureML ワークスペース。

id
必須
str

データセットの ID。

戻り値

説明

データセット オブジェクト。 データセットが登録されている場合は、その登録名とバージョンも返されます。

get_by_name

登録名によって、ワークスペースから登録されたデータセットを取得します。

get_by_name(name, version='latest', **kwargs)

パラメーター

名前 説明
workspace
必須

データセットが登録された既存の AzureML ワークスペース。

name
必須
str

登録名。

version
必須
int

登録バージョン。 既定値は 'latest' です。

戻り値

説明

登録されているデータセット オブジェクト。

get_definition

データセットの特定の定義を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_definition(version_id=None)

パラメーター

名前 説明
version_id
必須
str

データセット定義のバージョン ID。

戻り値

説明

データセットの定義。

注釈

version_id が指定されている場合、Azure Machine Learning は、そのバージョンに対応する定義を取得しようとします。 そのバージョンが存在しない場合は、例外がスローされます。 version_id を省略した場合は、最新バージョンが取得されます。

get_definitions

データセットのすべての定義を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_definitions()

戻り値

説明

データセット定義のディクショナリ。

注釈

Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 現在の定義は、最後に作成されたものです。

登録されていないデータセットの場合、定義は 1 つしか存在しません。

get_profile

以前に計算したデータセットの概要統計情報を取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

パラメーター

名前 説明
arguments
必須

プロファイルの引数。

generate_if_not_exist
必須

プロファイルが存在しない場合に生成するかどうかを示します。

workspace
必須

ワークスペース。一時的な (未登録の) データセットに必要です。

compute_target
必須

プロファイル アクションを実行するコンピューティング先。

戻り値

説明
<xref:azureml.dataprep.DataProfile>

データセットの DataProfile。

注釈

Azure Machine Learning ワークスペースに登録されているデータセットについて、以前に作成された既存のプロファイルが引き続き有効な場合、このメソッドは get_profile を呼び出してそのプロファイルを取得します。 データセットで変更データが検出された場合、または get_profile の引数がプロファイルの生成時に使用されたものと異なる場合、プロファイルは無効になります。 プロファイルが存在しない場合、または無効になっている場合は、新しいプロファイルが生成されるかどうかが generate_if_not_exist によって決定されます。

Azure Machine Learning ワークスペースに登録されていないデータセットの場合、このメソッドは常に generate_profile を実行し、結果を返します。

get_snapshot

データセットのスナップショットを名前で取得します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

get_snapshot(snapshot_name)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。

戻り値

説明

データセット スナップショット オブジェクト。

head

このデータセットから指定された数のレコードを取得し、それらをデータフレームとして返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

head(count)

パラメーター

名前 説明
count
必須
int

プルするレコードの数。

戻り値

説明

Pandas データフレーム。

list

is_visible プロパティが False に等しいものを含む、ワークスペース内のすべてのデータセットを一覧表示します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに get_all を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

static list(workspace)

パラメーター

名前 説明
workspace
必須

データセットの一覧を取得するワークスペース。

戻り値

説明

データセット オブジェクトの一覧。

reactivate

アーカイブ済みまたは非推奨のデータセットを再アクティブ化します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

reactivate()

戻り値

説明

なし。

register

ワークスペースにデータセットを登録して、ワークスペースの他のユーザーが使用できるようにします。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

代わりに register を使用することをお勧めします。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

パラメーター

名前 説明
workspace
必須

データセットを登録する AzureML ワークスペース。

name
必須
str

ワークスペース内のデータセットの名前。

description
必須
str

データセットの説明。

tags
必須

データセットに関連付けるタグ。

visible
必須

データセットが UI に表示されるかどうかを示します。 False の場合、データセットは UI で非表示になり、SDK を介して使用できます。

exist_ok
必須

True の場合、メソッドは、指定されたワークスペースに既に存在する場合はデータセットを返します。それ以外の場合はエラーを返します。

update_if_exist
必須

exist_ok が True であり、update_if_exist が True の場合、このメソッドは定義を更新して、更新されたデータセットを返します。

戻り値

説明

ワークスペースに登録されているデータセット オブジェクト。

sample

提供されたサンプリング方式とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

sample(sample_strategy, arguments)

パラメーター

名前 説明
sample_strategy
必須
str

使用するサンプル方式。 許容される値は、"top_n"、"simple_random"、または "stratified" です。

arguments
必須

上に示したリストの "省略可能な引数" からのキーと、"型" 列の値を含むディクショナリ。 使用できるのは、対応するサンプリング メソッドの引数だけです。 たとえば、"simple_random" サンプル型では、"probability" キーと "seed" キーを持つディクショナリだけを指定できます。

戻り値

説明

元のデータセットのサンプルとしてのデータセット オブジェクト。

注釈

サンプルを生成するには、このデータセットによって定義された変換パイプラインを実行し、サンプリング方式とパラメーターを出力データに適用します。 各サンプリング メソッドでは、次の省略可能な引数がサポートされています。

  • top_n

    • 省略可能な引数。

      • n。integer 型。 サンプルとして上位 N 行を選択します。
  • simple_random

    • 省略可能な引数。

      • 確率。float 型。 各行が選択される確率が等しい単純なランダム サンプリング。 確率は、0 から 1 の間の数値である必要があります。

      • シード。float 型。 乱数ジェネレーターによって使用されます。 再現性のために使用します。

  • stratified

    • 省略可能な引数。

      • 列。list[str] 型。 データ内の階層列の一覧。

      • シード。float 型。 乱数ジェネレーターによって使用されます。 再現性のために使用します。

      • 分数。dict[tuple, float] 型。 タプル: 階層を定義する列値は、列名と同じ順序である必要があります。 フローティング: サンプリング中に階層にアタッチされる重み。

次のコード スニペットは、さまざまなサンプル メソッドの設計パターンの例です。


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

このデータセット定義によって定義された変換パイプラインを実行して、Pandas データフレームを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

to_pandas_dataframe()

戻り値

説明

Pandas データフレーム。

注釈

メモリ内で完全に具体化された Pandas データフレームを返します。

to_spark_dataframe

このデータセット定義によって定義された変換パイプラインを実行できる Spark データフレームを作成します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

to_spark_dataframe()

戻り値

説明

Spark データフレーム。

注釈

返される Spark データフレームは実行プランに限定され、Spark データフレームは遅延評価されるので、実際にはデータを含みません。

update

ワークスペースのデータセットの変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

update(name=None, description=None, tags=None, visible=None)

パラメーター

名前 説明
name
必須
str

ワークスペース内のデータセットの名前。

description
必須
str

データの説明。

tags
必須

データセットに関連付けるタグ。

visible
必須

データセットが UI に表示されるかどうかを示します。

戻り値

説明

ワークスペースからの更新されたデータセット オブジェクト。

update_definition

データセット定義を更新します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

update_definition(definition, definition_update_message)

パラメーター

名前 説明
definition
必須

このデータセットの新しい定義。

definition_update_message
必須
str

定義の更新メッセージ。

戻り値

説明

ワークスペースからの更新されたデータセット オブジェクト。

注釈

更新されたデータセットを使用するには、このメソッドによって返されるオブジェクトを使用します。

属性

definition

現在のデータセット定義を返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

戻り値

説明

データセットの定義。

注釈

データセット定義は、データの読み取りおよび変換方法を指定する一連の手順です。

Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 複数の定義を使用すると、古い定義に依存するモデルやパイプラインを壊すことなく、既存のデータセットを変更できます。

登録されていないデータセットの場合、定義は 1 つしか存在しません。

definition_version

データセットの現在の定義バージョンを返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

戻り値

説明
str

データセットの定義バージョン。

注釈

データセット定義は、データの読み取りおよび変換方法を指定する一連の手順です。

Azure ML ワークスペースに登録されているデータセットには、update_definition を呼び出すことによって作成される複数の定義を含めることができます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義で、ID はこれによって返されます。

登録されていないデータセットの場合、定義は 1 つしか存在しません。

description

データセットの説明を返します。

戻り値

説明
str

データセットの説明。

注釈

データセットにデータの説明を指定すると、ワークスペースのユーザーは、データが表す内容とその使用方法を理解できます。

id

データセットがワークスペースに登録されている場合は、データセットの ID を返します。 それ以外の場合は、なしを返します。

戻り値

説明
str

データセット ID。

is_visible

Azure ML ワークスペース UI で登録済みのデータセットの可視性を制御します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

戻り値

説明

データセットの可視性。

注釈

返される値:

  • True: データセットはワークスペース UI に表示されます。 既定値。

  • False: データセットはワークスペース UI で非表示になります。

登録されていないデータセットには影響しません。

name

データセットの名前を返します。

戻り値

説明
str

データセットの名前。

state

データセットの状態を返します。

Note

このメソッドは非推奨とされており、サポートされなくなりました。

詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

戻り値

説明
str

データセットの状態。

注釈

状態の意味と効果は次のとおりです。

  • [アクティブ]: アクティブな定義は、その名のとおり、すべてのアクションをアクティブな定義に対して実行できます。

  • 非推奨になりました。 非推奨の定義は使用できますが、基になるデータにアクセスするたび、ログに警告が記録されます。

  • アーカイブ済み。 アーカイブ済みの定義を使用してアクションを実行することはできません。 アーカイブされた定義に対してアクションを実行するには、再アクティブ化する必要があります。

tags

データセットに関連付けられているタグを返します。

戻り値

説明

データセット タグ。

workspace

データセットがワークスペースに登録されている場合は返します。 それ以外の場合は、なしを返します。

戻り値

説明

ワークスペース。