データ変換 - 操作

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、基本的なデータ操作に使用できる Machine Learning Studio (クラシック) のモジュールについて説明します。

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

Machine Learning Studio (クラシック) では、正規化や機能の選択など、機械学習に固有のタスクがサポートされています。 このカテゴリのモジュールは、より一般的なタスクを対象としています。

データ操作タスク

このカテゴリのモジュールは、Machine Learning Studio (クラシック) で実行する必要のある主要なデータ管理タスクをサポートすることを目的としています。 次のタスクは、主要なデータ管理タスクの例です。

  • 結合を使用するか、列または行をマージすることによって、2つのデータセットを結合します。
  • データのグループ化に使用する新しいカテゴリを作成します。
  • 列見出しの変更、列のデータ型の変更、または特徴またはラベルとしての列のフラグの設定を行います。
  • 欠損値を確認し、適切な値に置き換えます。
  • サンプリングを実行するか、データセットをトレーニングセットとテストセットに分割する: データ変換-サンプルモジュールと分割 モジュールを使用します。
  • 数値のスケール、データの正規化、または数値のビンへの格納: データ変換 を使用します。
  • 数値データフィールドに対して計算を実行したり、一般的に使用される統計情報を生成したりする: 統計関数のツールを使用します。

機械学習実験で複雑なデータを操作する方法の例については、 Azure AI Galleryの次のサンプルを参照してください。

  • データの処理と分析: 主要なツールとプロセスを示します。
  • Ast のがんの検出: データセットをパーティション分割し、各パーティションに特別な処理を適用する方法を示します。

このカテゴリのモジュール

データ変換操作カテゴリには、次のモジュールが含まれています。

  • 列の追加: あるデータセットから別のデータセットに列のセットを追加します。
  • 行の追加: 入力データセットの行セットを別のデータセットの末尾に追加します。
  • SQL 変換の適用: 入力データセットに対して SQLite クエリを実行し、データを変換します。
  • 欠損データのクリーンアップ: データセットに欠けている値の処理方法を指定します。 このモジュールは、非推奨とされている欠損値削除機能を置き換えます。
  • インジケーター値への変換: 列のカテゴリ値をインジケーター値に変換します。
  • メタデータの編集: データセット内の列に関連付けられているメタデータを編集します。
  • カテゴリ値のグループ化: 複数のカテゴリのデータを新しいカテゴリにグループ化します。
  • データの結合: 2 つのデータセットを結合します。
  • 重複する行の削除: データセットから重複する行を削除します。
  • データセット内の列の選択: データセットに含める列、または操作でデータセットから除外する列を選択します。
  • Select Columns Transform: 指定したデータセットと同じ列のサブセットを選択する変換を作成します。
  • SMOTE: 合成された少数派オーバーサンプリングを使用して、データセット内の低インシデントの例の数を増やします。

こちらもご覧ください