MLTable クラス

リファレンス

MLTable を表します。

MLTable は、データソースからデータを読み込む一連の遅延評価された不変操作を定義します。 MLTable がデータの配信を求められるまで、データはソースから読み込まれません。

新しい MLTable を初期化します。

このコンストラクターは、直接呼び出されることは想定されていません。 MLTable は、を使用して load作成することを目的としています。

継承: builtins.object

MLTable

コンストラクター

MLTable()

メソッド

convert_column_types	指定した列をそれぞれに指定した新しい型に変換する変換手順を追加します。 `from mltable import DataType data_types = { 'ID': DataType.to_string(), 'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'), 'Count': DataType.to_int(), 'Latitude': DataType.to_float(), 'Found': DataType.to_bool(), 'Stream': DataType.to_stream() }`
drop_columns	データセットから指定された列を削除する変換ステップを追加します。空のリスト、タプル、またはセットが指定されている場合、何も削除されません。列が重複すると、UserErrorException が発生します。 MLTable.traits.timestamp_column列または MLTable.traits.index_columns 内の列を削除しようとすると、UserErrorException が発生します。
extract_columns_from_partition_format	各パスのパーティション情報を使用し、指定したパーティション形式に基づいて列に抽出する変換ステップを追加します。形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。形式は、最初のパーティションキーの位置から始まり、ファイルパスの末尾までになります。たとえば、パーティションが部門名と時間によってあるパス '/Accounts/2019/01/01/data.csv' を指定すると、 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' は、値 'Accounts' と値 '2019-01-01' の datetime 列 'PartitionDate' を含む文字列列 'Department' を作成します。
filter	データをフィルター処理して、指定された式に一致するレコードのみを残します。
get_partition_count	この MLTable に関連付けられているデータの基になるデータパーティションの数を返します。
keep_columns	指定した列を保持し、データセットから他のすべての列を削除する変換ステップを追加します。空のリスト、タプル、またはセットが指定されている場合、何も削除されません。列が重複すると、UserErrorException が発生します。 MLTable.traits.timestamp_column内の列またはMLTable.traits.index_columnsの列が明示的に保持されていない場合、UserErrorException は raiesd になります。
random_split	この MLTable を 2 つの MLTable にランダムに分割します。1 つは元の MLTable のデータの約 "%" % を持ち、もう 1 つは剰余 (1-"パーセント"%) を持っています。
save	この MLTable を MLTable YAML ファイルとして保存し、関連付けられたパスを指定されたディレクトリパスに & します。 path が指定されていない場合、既定では現在の作業ディレクトリが使用されます。パスが存在しない場合は、作成されます。 path がリモートの場合は、基になるデータストアが既に存在している必要があります。 path がローカルディレクトリ & 絶対ではない場合は、絶対ディレクトリになります。パスがファイルを指している場合は、UserErrorException が発生します。 path が既に保存されている 1 つ以上のファイル (MLTable YAML ファイルを含む) を含むディレクトリパスで、overwrite が False または 'fail' に設定されている場合は、UserErrorException が発生します。 path がリモートの場合、併置パスとして指定されていないローカルファイルパス (MLTable が読み込まれたディレクトリに対する相対ファイルパス) は UserErrorException を発生させます。 colocated は、関連付けられたパスを path に保存する方法を制御します。 True の場合、ファイルは MLTable YAML ファイルと共に相対ファイルパスとしてパスにコピーされます。それ以外の場合、関連付けられたファイルはコピーされません。リモートパスは指定されたままであり、必要に応じて、ローカルファイルパスはパスリダイレクトを使用して相対パスになります。 False を指定すると、非割り当て MLTable YAML ファイルが生成される可能性があり、これは推奨されません。さらに、パスがリモートの場合は、相対パスリダイレクトがリモート URI でサポートされていないため、UserErrorException が発生します。 MLTable が、ローカル相対パスを持つ from_paths() や from_read_delimited_files() などのメソッドを使用してプログラム的に作成される場合、MLTable ディレクトリパスは現在の作業ディレクトリであると見なされることに注意してください。新しい MLTable & 関連付けられたデータファイルを、新しいファイルを保存する前に、ディレクトリが既存のファイルからクリアされていないデータファイル & 関連付けられたデータファイルを含むディレクトリに保存する場合は注意してください。特に、既存のデータファイルに新しいデータファイルと一致する名前がない場合は、新しいファイルを保存した後に既存のデータファイルを保持できます。新しい MLTable のパスの下にパターン指定子が含まれている場合、既存のデータファイルを新しい MLTable に関連付けることで、MLTable が意図せず変更される可能性があります。この MLTable のファイルパスがパス内の既存のファイルを指していても、URI が異なる場合、overwrite が 'fail' または 'skip' の場合、既存のファイルは上書きされません (つまりスキップされます)。
select_partitions	パーティションを選択する変換ステップを追加します。
show	この MLTable の最初のカウント行を Pandas データフレームとして取得します。
skip	この MLTable の最初のカウント行をスキップする変換ステップを追加します。
take	この MLTable の最初のカウント行を選択する変換ステップを追加します。
take_random_sample	確率確率でこの MLTable の各行をランダムに選択する変換ステップを追加します。確率の範囲は [0, 1] である必要があります。必要に応じて、ランダムシードを設定できます。
to_pandas_dataframe	MLTable ファイルで指定されたパスからすべてのレコードを Pandas DataFrame に読み込みます。
validate	この MLTable のデータを読み込むことができるかどうかを検証します。現在のコンピューティングから MLTable のデータソースにアクセスできるようにする必要があります。

convert_column_types

指定した列をそれぞれに指定した新しい型に変換する変換手順を追加します。


   from mltable import DataType
       data_types = {
           'ID': DataType.to_string(),
           'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
           'Count': DataType.to_int(),
           'Latitude': DataType.to_float(),
           'Found': DataType.to_bool(),
           'Stream': DataType.to_stream()
       }

convert_column_types(column_types)

パラメーター

名前	説明
column_types 必須	dict[Union[Tuple[str], str], DataType] 列の辞書: ユーザーが変換する必要がある型

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

drop_columns

データセットから指定された列を削除する変換ステップを追加します。空のリスト、タプル、またはセットが指定されている場合、何も削除されません。列が重複すると、UserErrorException が発生します。

MLTable.traits.timestamp_column列または MLTable.traits.index_columns 内の列を削除しようとすると、UserErrorException が発生します。

drop_columns(columns: str | List[str] | Tuple[str] | Set[str])

パラメーター

名前	説明
columns 必須	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] この MLTable から削除する列

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

extract_columns_from_partition_format

各パスのパーティション情報を使用し、指定したパーティション形式に基づいて列に抽出する変換ステップを追加します。

形式の '{column_name}' の部分では文字列の列が、'{column_name:yyyy/MM/dd/HH/mm/ss}' では datetime の列が作成されます。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は datetime 型の年、月、日、時、分、秒の抽出に使用されます。

形式は、最初のパーティションキーの位置から始まり、ファイルパスの末尾までになります。たとえば、パーティションが部門名と時間によってあるパス '/Accounts/2019/01/01/data.csv' を指定すると、 partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' は、値 'Accounts' と値 '2019-01-01' の datetime 列 'PartitionDate' を含む文字列列 'Department' を作成します。

extract_columns_from_partition_format(partition_format)

パラメーター

名前	説明
partition_format 必須	str 列にデータを抽出するために使用するパーティション形式

戻り値

型	説明
MLTable	パーティション形式が指定された形式に設定されている MLTable

filter

データをフィルター処理して、指定された式に一致するレコードのみを残します。

filter(expression)

パラメーター

名前	説明
expression 必須	string 評価する式。

戻り値

型	説明
MLTable	フィルター後の MLTable

注釈

式は、列の名前を使用して mltable にインデックスを付けることで開始されます。さまざまな関数や演算子がサポートされており、論理演算子を使用して組み合わせることができます。結果として得られる式は、定義されている場所ではなく、データプルが発生したときに、各レコードに対して遅延評価されます。


   filtered_mltable = mltable.filter('feature_1 == "5" and target > "0.5)"')
   filtered_mltable = mltable.filter('col("FBI Code") == "11"')

get_partition_count

この MLTable に関連付けられているデータの基になるデータパーティションの数を返します。

get_partition_count() -> int

戻り値

型	説明
int	この MLTable のデータパーティション

keep_columns

指定した列を保持し、データセットから他のすべての列を削除する変換ステップを追加します。空のリスト、タプル、またはセットが指定されている場合、何も削除されません。列が重複すると、UserErrorException が発生します。

MLTable.traits.timestamp_column内の列またはMLTable.traits.index_columnsの列が明示的に保持されていない場合、UserErrorException は raiesd になります。

keep_columns(columns: str | List[str] | Tuple[str] | Set[str])

パラメーター

名前	説明
columns 必須	Union[str, list[str], <xref:builtin.tuple>[str], <xref:builtin.set>[str]] 保持する MLTable 内の列

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

random_split

この MLTable を 2 つの MLTable にランダムに分割します。1 つは元の MLTable のデータの約 "%" % を持ち、もう 1 つは剰余 (1-"パーセント"%) を持っています。

random_split(percent=0.5, seed=None)

パラメーター

名前	説明
percent 必須	Union[int, float] 分割する MLTable の割合
seed 必須	Optional[int] オプションのランダムシード

戻り値

型	説明
Tuple[MLTable, MLTable]	この MLTable のデータが "パーセント" で分割された 2 つの MLTable

save

この MLTable を MLTable YAML ファイルとして保存し、関連付けられたパスを指定されたディレクトリパスに & します。

path が指定されていない場合、既定では現在の作業ディレクトリが使用されます。パスが存在しない場合は、作成されます。 path がリモートの場合は、基になるデータストアが既に存在している必要があります。 path がローカルディレクトリ & 絶対ではない場合は、絶対ディレクトリになります。

パスがファイルを指している場合は、UserErrorException が発生します。 path が既に保存されている 1 つ以上のファイル (MLTable YAML ファイルを含む) を含むディレクトリパスで、overwrite が False または 'fail' に設定されている場合は、UserErrorException が発生します。 path がリモートの場合、併置パスとして指定されていないローカルファイルパス (MLTable が読み込まれたディレクトリに対する相対ファイルパス) は UserErrorException を発生させます。

colocated は、関連付けられたパスを path に保存する方法を制御 します。 True の場合、ファイルは MLTable YAML ファイルと共に相対ファイルパスとしてパスにコピーされます。それ以外の場合、関連付けられたファイルはコピーされません。リモートパスは指定されたままであり、必要に応じて、ローカルファイルパスはパスリダイレクトを使用して相対パスになります。 False を指定すると、非割り当て MLTable YAML ファイルが生成される可能性があり、これは推奨されません。さらに、パスがリモートの場合は、相対パスリダイレクトがリモート URI でサポートされていないため、UserErrorException が発生します。

MLTable が、ローカル相対パスを持つ from_paths() や from_read_delimited_files() などのメソッドを使用してプログラム的に作成される場合、MLTable ディレクトリパスは現在の作業ディレクトリであると見なされることに注意してください。

新しい MLTable & 関連付けられたデータファイルを、新しいファイルを保存する前に、ディレクトリが既存のファイルからクリアされていないデータファイル & 関連付けられたデータファイルを含むディレクトリに保存する場合は注意してください。特に、既存のデータファイルに新しいデータファイルと一致する名前がない場合は、新しいファイルを保存した後に既存のデータファイルを保持できます。新しい MLTable のパスの下にパターン指定子が含まれている場合、既存のデータファイルを新しい MLTable に関連付けることで、MLTable が意図せず変更される可能性があります。

この MLTable のファイルパスがパス内の既存のファイルを指していても、URI が異なる場合、overwrite が 'fail' または 'skip' の場合、既存のファイルは上書きされません (つまりスキップされます)。

save(path=None, overwrite=True, colocated=False, show_progress=False, if_err_remove_files=True)

パラメーター

名前	説明
path 必須	str 保存先のディレクトリパス(既定では現在の作業ディレクトリ)
colocated 必須	bool True の場合、ローカル & リモートファイルパスのコピーを相対パスとしてこの MLTable の下に保存します。それ以外の場合、ファイルのコピーは行われず、リモートファイルパスは、保存された MLTable YAML ファイルとローカルファイルパスに、パスリダイレクトを使用した相対ファイルパスとして保存されます。 path がリモート & この MLTable にローカルファイルパスが含まれている場合は、UserErrorException が発生します。
overwrite 必須	Union[bool, str, <xref:mltable.MLTableSaveOverwriteOptions>] 既存の MLTable YAML ファイルと、パスの下に既に存在する可能性がある関連ファイルを処理する方法。既存のファイルを置き換える場合は 'overwrite' (または True) 、ファイルが既に存在する場合はエラーを発生させる場合は 'fail' (または False) 、既存のファイルをそのまま残す場合は 'skip' がオプションです。で設定 <xref:mltable.MLTableSaveOverwriteOptions>することもできます。
show_progress 必須	bool stdout へのコピーの進行状況が表示されます
if_err_remove_files 必須	bool 保存中にエラーが発生した場合は、正常に保存されたファイルを削除して操作をアトミックにします

戻り値

型	説明
MLTable	この MLTable インスタンス

select_partitions

パーティションを選択する変換ステップを追加します。

select_partitions(partition_index_list)

パラメーター

名前	説明
partition_index_list 必須	list of int パーティションインデックスの一覧

戻り値

型	説明
MLTable	パーティションサイズが更新された MLTable

注釈

次のコードスニペットは、select_partitions API を使用して、指定された MLTable から選択したパーティションに対して実行する方法を示しています。


   partition_index_list = [1, 2]
   mltable = mltable.select_partitions(partition_index_list)

show

この MLTable の最初の カウント 行を Pandas データフレームとして取得します。

show(count=20)

パラメーター

名前	説明
count 必須	int 選択するテーブルの上部からの行数

戻り値

型	説明
<xref:Pandas> <xref:Dataframe>	MLTable の最初のカウント行

skip

この MLTable の最初の カウント 行をスキップする変換ステップを追加します。

skip(count)

パラメーター

名前	説明
count 必須	int スキップする行数

戻り値

型	説明
	変換ステップが追加された MLTable

take

この MLTable の最初の カウント 行を選択する変換ステップを追加します。

take(count=20)

パラメーター

名前	説明
count 必須	int 選択するテーブルの上部からの行数

戻り値

型	説明
MLTable	"take" 変換ステップが追加された MLTable

take_random_sample

確率確率でこの MLTable の各行をランダムに選択する変換ステップを追加します。確率の範囲は [0, 1] である必要があります。必要に応じて、ランダムシードを設定できます。

take_random_sample(probability, seed=None)

パラメーター

名前	説明
probability 必須	各行が選択されている可能性
seed 必須	Optional[int] オプションのランダムシード

戻り値

型	説明
MLTable	変換ステップが追加された MLTable

to_pandas_dataframe

MLTable ファイルで指定されたパスからすべてのレコードを Pandas DataFrame に読み込みます。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	この MLTable のパスからのレコードを含む Pandas データフレーム

注釈

次のコードスニペットは、to_pandas_dataframe API を使用して、提供された MLTable に対応する pandas データフレームを取得する方法を示しています。


   from mltable import load
   tbl = load('.\samples\mltable_sample')
   pdf = tbl.to_pandas_dataframe()
   print(pdf.shape)

validate

この MLTable のデータを読み込むことができるかどうかを検証します。現在のコンピューティングから MLTable のデータソースにアクセスできるようにする必要があります。

validate()

戻り値

型	説明
None	なし

属性

partition_keys

パーティションキーを返します。

戻り値

型	説明
list[str]	パーティションキー

paths

この MLTable に指定された元のパスを含むディクショナリの一覧を返します。相対ローカルファイルパスは、この MLTable インスタンスが読み込まれた MLTable YAML ファイルが読み込まれたディレクトリに対する相対パスであると見なされます。

戻り値

型	説明
list[dict[str, str]]	MLTable で指定されたパスを含むディクテーションの一覧

次の方法で共有

MLTable クラス

コンストラクター

メソッド

convert_column_types

パラメーター

戻り値

drop_columns

パラメーター

戻り値

extract_columns_from_partition_format

パラメーター

戻り値

filter

パラメーター

戻り値

注釈

get_partition_count

戻り値

keep_columns

パラメーター

戻り値

random_split

パラメーター

戻り値

save

パラメーター

戻り値

select_partitions

パラメーター

戻り値

注釈

show

パラメーター

戻り値

skip

パラメーター

戻り値

take

パラメーター

戻り値

take_random_sample

パラメーター

戻り値

to_pandas_dataframe

戻り値

注釈

validate

戻り値

属性

partition_keys

戻り値

paths

戻り値

フィードバック

その他のリソース