基本統計のコンピューティング
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
選択したデータセットの列について、指定した要約統計量を計算します
カテゴリ: 統計関数
注意
適用対象: Machine Learning Studio (クラシック) のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) の Compute Elementary Statistics モジュールを使用して、データセットの概要レポートを生成する方法について説明します。このレポートには、平均、標準偏差、選択した各列の値の範囲などの主要な統計情報が一覧表示されます。
このレポートは、データの中心傾向、分散、および形状の分析に役立ちます。
コンピューティングの初等統計を構成する方法
コンピューティングの 初等統計モジュールを 実験に追加します。 このモジュールは、Machine Learning Studio (クラシック) の [統計関数] カテゴリで確認できます。
Connectする列を含むデータセットを作成します。
[メソッド ] ドロップダウン リストをクリックし、各列に対して計算する値の種類を選択します。
使用可能な 統計情報の完全な 一覧と、その意味については、「サポートされている統計」セクションを参照してください。
既定では、[メソッド] ドロップダウン リストで選択した値は、数値データ型を持つデータセット内のすべての列に対して計算されます。 値の計算を妨げる値が列に存在する場合は、エラーが発生し、レポートは作成されません。
このエラーを回避するには、列セレクターを使用して、レポートを作成する数値列を選択します。 選択する列はすべて数値である必要があります。
実験を実行します。
結果
生成されたレポートには、各列の名前と計算された統計が含まれます。 たとえば、次の表は、mpg 列に対して生成 された統計を示 しています。
DeviationSquared(mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
ヒント
コンピューティングの初等 統計を実行するたび、選択した各列に対して 1 つの概要統計のみを生成できます。 ただし、前の例のように、列の追加モジュールまたは行の追加モジュールを使用して、結果を 1 つのテーブルにマージできます。
サポートされている統計
このモジュールでは、次の標準的な記述統計がサポートされています。
二乗偏差
列値の 2 乗偏差 を計算します。 二乗の合計とも呼ばれる。
2 乗偏差は、平均値からどの範囲の値が分散されるのかの尺度です。
幾何平均
列値 のジオメトリック 平均を計算します。
ジオメトリック平均を使用して、一連の数値の中心傾向を測定できます。 算術平均と比較すると、極端な値の数が少ない場合の影響は少ない。 また、比較する数値のスケールを効果的に正規化するために、さまざまなスケールの測定値を比較するためにも使用できます。 ジオメトリック平均は、年間の複合増加率を見積もる場合に使用される場合があります。
この関数の同等Excel GEOMEAN です。
調和平均
列値 の平均を 計算します。
対数平均を計算するために、すべての値が相互に変換され、その平均値がそれらの値から取られます。 高次平均は、その平均の相互です。 列の値が正の場合、より大きな数値は小さい数値より小さい重み付けされます。
高次平均は常に、算術平均より小さいジオメトリック平均より小さい値です。 高次平均は、速度 (時間の流れた距離) や四半期あたりの売上など、レートを表す変数を平均化する場合に便利です。
の同等の関数Excel HARMEAN です。
四分位偏差
列値の 最初と最後の 四分位数の分位 差 を計算します。 四分位範囲 とも呼ばれる。 四分位数が 2 つの数値の間に入る場合、四分位値は切り取りのいずれかの側の 2 つの値の平均です。
四分位値は、値の列を同じ数の 4 つのグループに分割します。 したがって、値の 4 分の 1 が 25 番目の 10 分の 1 以下になります。 値の 4 分の 3 は、75 番目のセンタイル以下です。 四分位数の範囲を確認すると、データ値の広がりを確認できます。
K 番目の中心積率
列値 の K 番目の中心の 瞬間を計算します。
K 番目の中心の瞬間を計算する場合は、Order ( k の値) も指定する必要があります。 k の値は 0 から任意の許容整数値の範囲で指定できます。一般に、高い順序の値は意味がありません。
一般に、説明的な統計では、瞬間は一連の点の形状を記述するメジャーです。 中心の瞬間は平均に関する瞬間です。これは、分布の形状に関するより良い情報を提供するために通常使用されます。 通常、2 の順序は分散を表します。4 の順序は、クルトク語に使用されます。 最初の注文の瞬間は平均です。 したがって、すべての瞬間のコレクションは、列内の値の分布を一意に記述します。
Max
列の 最大値を 検索します。
平均
列値 の算術 平均を計算します。
この関数の同等のExcel AVERAGE です。
平均偏差
列値の 平均絶対偏差 を計算します。
つまり、平均値は列に対して計算され、列の各値に対して計算された偏差です。 個々の偏差値の絶対値の平均は平均偏差です。
この統計は、数値の列の平均からどのように広がっているのかが示されます。
中央値
列値 の中央値 を返します。
中央値は、数値の列の中央にある数値です。 列に数値の数が 1 つでもある場合、中央値は中央の 2 つの数値の平均です。
中央値は、平均値とモードと共に、中心傾向を測定する 3 つの統計の 1 つになります。 値が平均値の周りに対称である場合、3 つの数値は約同じになります。 ただし、中央値は平均よりも外れ値に対して堅牢です。
中央偏差
列の 中央値の偏差 を計算します。
つまり、中央値は列に対して計算され、偏差は列の各値に対して計算されます。 個々の偏差値の絶対値の中央値が取得されます。
絶対偏差の中央値は、MAD とも呼ばれるので、数値のサンプルの変動性を記述するために使用されます。 MAD は、数値の列の平均からどのように広がっているのかが示されます。
Min
列の 値の最小値 を返します。
モード
列のすべての モード を検索します。
モードは、列内で最も多く表示される値です。 複数の値が同じ回数表示される場合、列には複数のモードを指定できます。
中心傾向の尺度として、モードは平均よりも外れ値に対して堅牢であり、標準データでも使用できます。
母集団標準偏差
列値 の母標準偏差 を計算します。
この統計では、列の値が母集団全体を表している前提とします。 データが母集団のサンプルだけの場合は、サンプル標準偏差を使用して標準偏差 を計算する必要があります。 ただし、大規模なデータセットでは、2 つの統計からほぼ等しい値が返されます。
標準偏差は、列分散の平方根として計算されます。 この統計では、列の変動の量がキャプチャされます。
母集団分散
列値の 母分散 を計算します。
分散は、一連の数値が分散される量を測定します。分散が 0 の場合、すべての数値は同じです。
この統計では、値の列が母集団全体を表している前提とします。 データに値のサンプルだけが含まれている場合は、サンプル分散を使用して分散を 計算する必要があります。
関数と同等Excelは ですVAR.P
。
製品
列の 要素の 製品を計算します。
製品を取得するには、列内のすべての数値を複数使用します。 結果自体は説明的な統計量として役に立たず、関数は他のさまざまな計算に役立ちます。
範囲
列値 の範囲 を計算します。 範囲は最大値から最小値を引いた値として定義されます
標本尖度
列の値 に対するサンプルのクルト 度を計算します。
クルトフ語は、正規分布と比較して、値の分布の形状 、つまり、値の分布のピークまたはフラット度を表します。
正規分布の数は 0 です。
高いクルト度値は、確率の高い量がピークの周り、または分布の末尾に集中している状態を示します。
負のくるみ値は、比較的平坦な分布を示します。
標本歪度
列の値 のサンプルの傾斜 を計算します。
スキューは、値の大部分が中央にあるか、左にシフトされるのか、右にシフトされたのかを示します。 2 つの分布の平均と標準偏差は同じでも、整形方法は非常に異なる場合があります。 傾斜とくるみを使用して、図形を特徴付けできます。
負の傾斜値は、分布が左側に傾斜している場合を意味します。
0 は正規分布を表します。
正の傾斜値は、分布が右側に傾斜しているという意味です。
標本標準偏差
列の値 の標準偏差の サンプルを計算します。
サンプルの標準偏差は、列の値が平均からどのように分散されるのか測定します。 セット内のデータの値と平均の間の平均距離を表します。
この統計では、列の値が母集団のサンプルを表している前提とします。 データが母集団全体を表す場合は、母集団標準偏差を使用して標準偏差 を計算する必要があります。
同等のExcelは ST です。DEV.S.
標本分散
列値の サンプル分散 を計算します。
このメソッドは、列の値が母集団のサンプルを表している前提とします。 列に母集団全体が含まれている場合は、母集団標準分散 を使用する必要があります。
関数とExcel VAR.S です。
SUM
列の値 の 合計を計算します。
例
次の図の実験 Azure AI Gallery データセット全体の説明的な統計を含む概要レポートを作成する方法を示しています。 概要レポートには、一般的な統計情報だけが含まれます。ただし、 [コンピューティングの初等統計] のオプションを使用して、データセットとして保存し、さらに詳細な統計 を追加することができます。
UCI からデータセットをダウンロードする: Summarize Data モジュールは、データセット内のすべての列に関する概要レポートを生成するために使用されます。
データセットの処理と分析: データ の集計モジュール は、データセット内のすべての列に関する概要レポートを生成するために使用されます。
テクニカル ノート
このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。
ヒント
コンピューティングの初等統計モジュールを使用する場合は、次 の条件を満たす必要 があります。
- 選択した統計を計算するには、十分な数のデータ ポイント (行) が必要です。 たとえば、サンプル標準偏差を 計算するには、少なくとも 2 つのデータ ポイントが必要です。それ以外の場合、結果は NaN です。
- 入力列は数値またはブール値である必要があります。
既定では、すべての数値列が選択されます。 ただし、カテゴリとしてマークされている数値列がある場合は、"エラー 0056: <> 名前列名を持つ列が許可されたカテゴリに含め"というエラーが表示される場合があります。エラーを修正するには、[メタデータの編集] モジュールのインスタンスを追加し、問題のある列を選択し、[カテゴリを削除] オプションを使用します。
実装の詳細
ブール値列は次のように処理されます。
最小値は論理 AND として計算されます。
最大値は論理 OR として計算されます。
範囲では、列の一意の値の数が 2 と等しいかどうかが確認されます。
不足している値は無視されます。
浮動小数点演算が必要な統計の場合、True は 1.0、False は 0.0 となります
想定される入力
名前 | 型 | 説明 |
---|---|---|
データセット | データ テーブル | 入力データセット |
モジュールのパラメーター
名前 | Range | Type | Default | 説明 |
---|---|---|---|---|
認証方法 | 一覧 | 基本統計法 | 計算で使用する統計方法を選択します。 値の一覧については、「How to use 」セクションを参照してください。 | |
列セット | any | ColumnSelection | NumericAll | 統計を計算するための列を選択します |
順番 | >=1 | Integer | 3 | 中央の瞬間の順序の値を指定します (k 番目の中心の瞬間にのみ使用されます) |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | データ テーブル | 出力データセット |
例外
例外 | 説明 |
---|---|
エラー 0017 | 指定した 1 つまたは複数の列に、現在のモジュールでサポートされていない型がある場合、例外が発生します。 |
Studio (クラシック) モジュールに固有のエラーの一覧については、「エラー コードMachine Learning参照してください。
API の例外の一覧については、「エラー コードMachine Learning REST API参照してください。