データの集計
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
データセット内の列について基本的な記述統計量のレポートを生成します
Category: 統計関数
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) の [データの集計] モジュールを使用して、入力テーブル内の各列を記述する一連の標準統計メジャーを作成する方法について説明します。
このような概要統計は、完全なデータセットの特性を理解するのに役立ちます。 たとえば、次のことを知る必要がある場合があります。
- 各列で欠落している値の数はいくつあるか。
- 特徴列にある一意の値の数はいくつか。
- 各列の平均偏差と標準偏差はいくつか。
このモジュールは、各列の重要なスコアを計算し、入力として提供された各変数 (データ列) の要約統計の行を返します。
ヒント
Studio (クラシック) の [ 視覚化 ] オプションを使用して、統計の簡単な一覧を取得できることを既に理解している場合があります。 ただし、この視覚化は、いくつかの上位の行に基づいて作成されます。 これに対して、 データの要約 モジュールは、すべてのデータ行の統計を計算します。
データの集計を使用する方法
データの 要約 モジュールを実験に追加します。 このモジュールは、Studio (クラシック) の [ 統計関数 ] カテゴリで見つけることができます。
レポートを生成する対象のデータセットを接続します。
一部の列のみに関するレポートを作成する場合は、Select Columns in Dataset (データセット内の列の選択) モジュールを使用して、使用する列のサブセットを指定します。
追加のパラメーターは必要ありません。 既定では、モジュールは入力として指定されたすべての列を分析し、列内の値の型に応じて、「結果」セクションで説明されているように、関連する統計のセットを出力します。
実験を実行するか、モジュールを右クリックして、[ 選択したものを実行] を選択します。
結果
モジュールからのレポートには、次の統計情報を含めることができます。
生成される正確な統計は、列のデータ型によって異なります。 詳細については、「 テクニカルノート 」を参照してください。
インスタンスが母集団の代表的なサンプルに属していることが前提となります。 作成時の統計を計算する必要がある場合は、Compute statistics ( 基本的 な統計) モジュールのオプションを使用します。これにより、サンプルまたは母集団の統計を計算できます。
列名 | 説明 |
---|---|
機能 | 列の名前 |
Count | すべての行の数 |
Unique Value Count (一意の値の数) | 列内の一意の値の数 |
Missing Value Count (欠損値の数) | 列内の一意の値の数 |
Min (最小値) | 列内の最小値 |
Max (最大値) | 列内の最大値 |
Mean (平均値) | すべての列値の平均値 |
Mean Deviation (平均偏差) | 列値の平均偏差 |
1st Quartile (第 1 四分位数) | 第 1 四分位数の値 |
中央値 | 中央の列値 |
3rd Quartile (第 3 四分位数) | 第 3 四分位数の値 |
モード | 列値のモード |
Range | 最大値と最小値の間の値の数を表す整数 |
Sample Variance (サンプル分散) | 列の分散。注を参照。 |
Sample Standard Deviation (サンプル標準偏差) | 列の標準偏差。注を参照。 |
Sample Skewness (サンプル歪度) | 列の歪度。注を参照。 |
Sample Kurtosis (サンプル尖度) | 列の尖度。注を参照。 |
P0.5 | 0.5% パーセンタイル |
P1 | 1% パーセンタイル |
P5 | 5% パーセンタイル |
P95 | 95% パーセンタイル |
P99.5 | 99.5% パーセンタイル |
ヒント
統計レポートを表形式のデータセットとして出力します。これにより、BI レポートツールでデータを使用したり、実験で別の操作への入力として値を使用したりできます。
例
実験で データの要約 モジュールを使用する方法の例については、 Azure AI Galleryを参照してください。
uci からデータセットをダウンロード: uci Machine Learning リポジトリの URL を使用して CSV 形式でデータセットを読み取り、データセットに関する基本的な統計情報を生成します。
データセットの処理と分析: データセットをワークスペースに読み込み、列名を変更し、メタデータを追加します。
学生の成績の予測: Azure Blob ストレージから TSV 形式で格納されたデータを読み取ります。
テクニカル ノート
数値およびブール型の列の場合は、平均、中央値、モード、および標準偏差を出力できます。
数値以外の列では、数、一意の値の数、および欠損値の数の値のみが計算されます。 他の統計では、null 値が返されます。
ブール値を含む列は、これらのルールを使用して処理されます。
最小の計算時には論理 AND が適用されます。
Max を計算 する場合、論理 OR が適用されます。
範囲の計算時、モジュールはまず、列の一意の値の数が 2 と等しいかどうかを確認します。
浮動小数点演算が必要なすべての統計の計算時には、True の値が 1.0、False の値が 0.0 として扱われます。
想定される入力
名前 | 型 | 説明 |
---|---|---|
データセット | データ テーブル | 入力データセット |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | データ テーブル | 記述統計を含む入力データセットのプロファイル |
例外
例外 | 説明 |
---|---|
エラー 0003 | 1 つ以上の入力が null または空の場合に、例外が発生します。 |
エラー 0020 | モジュールに渡された一部のデータセットの列数が少なすぎる場合に、例外が発生します。 |
エラー 0021 | モジュールに渡された一部のデータセットの行数が少なすぎる場合に、例外が発生します。 |
Studio (クラシック) モジュールに固有のエラーの一覧については、「エラー コードMachine Learning参照してください。
API の例外の一覧については、「エラー コードMachine Learning REST API参照してください。