カウント テーブル パラメーターの変更
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
カウントから機能を作成するために使用するパラメーターを変更します
カテゴリ:カウントを含むラーニング
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) のカウントテーブルパラメーターの変更モジュールを使用して、カウントテーブルからの機能の生成方法を変更する方法について説明します。
一般に、カウントベースの特徴を作成するには、 ビルドカウント変換 を使用してデータセットを処理し、カウントテーブルを作成します。そのカウントテーブルから、新しい機能セットを生成します。
ただし、カウントテーブルを既に作成している場合は、カウント テーブルパラメーターの変更 モジュールを使用して、カウントデータの処理方法の定義を編集できます。 これにより、データセットを再分析しなくても、既存のデータに基づいて異なるカウントベースの統計を作成できます。
Modify Count パラメーターを構成する方法
変更する変換を [ 変換 ] グループで探し、実験に追加します。
カウント変換を作成した実験を以前に実行している必要があります。
保存した変換を変更するには、 [変換] グループで変換を見つけて、実験に追加します。
同じ実験内で作成されたカウント変換を変更するには: 変換が保存されていないが、現在の実験で出力として使用できる (たとえば、 ビルドカウント変換 モジュールの出力を確認する) 場合は、モジュールを接続して直接使用できます。
カウントテーブルパラメーターの変更モジュールを追加し、変換を入力として接続します。
カウントテーブルパラメーターの変更モジュールのプロパティペインで、ガベージビンのしきい値として使用する値を入力します。
この値は、各機能の値が使用されるために必要な最小出現回数を指定します。 値の頻度がガベージビンのしきい値未満の場合、値とラベルのペアは不連続項目としてカウントされません。代わりに、しきい値よりも小さいカウントを持つすべての項目は、単一の "ガベージビン" に配置されます。
小さなデータセットを使用していて、同じデータに対してカウントとトレーニングを行っている場合は、開始値として1を使用することをお勧めします。
前の擬似的な例については、追加する擬似例の数を示す数値を入力します。 これらの例を提供する必要はありません。擬似的な例は、前のディストリビューションに基づいて生成されます。
[ Laを使用したノイズスケール] で、laの分布からサンプリングされたノイズの導入に使用されるスケールを表す正の浮動小数点値を入力します。 スケール値を設定すると、許容可能なノイズレベルがモデルに組み込まれます。そのため、データの見えない値によってモデルが影響を受ける可能性は低くなります。
[ 出力機能] には、変換に含めるカウントベースの特徴を作成するときに使用する方法を選択します。
CountsOnly: カウントを使用して特徴を作成します。
LogOddsOnly: 確率比率のログを使用して特徴を作成します。
BothCountsAndLogOdds: カウントとログの記録を両方とも使用して機能を作成します。
機能の作成時に出力のフラグを上書き
IsBackOff
する場合は、[バックオフ列を無視する] オプションを選択します。 このオプションを選択すると、列に有意なカウント値がない場合でも、カウントベースの特徴が作成されます。実験を実行します。 その後、必要に応じて、 Modify Count テーブルパラメーター の出力を新しい変換として保存できます。
例
このモジュールの例については、 Azure AI Galleryを参照してください。
カウントを使用したラーニング:二項分類: 学習モジュールを使用して、二項分類モデルのカテゴリ値の列から特徴を生成する方法を示します。
カウントのラーニング: NYC タクシーデータを使用した多クラス分類: サンプルでは、一般公開されている NYC タクシーデータセットで多クラス分類を実行するために、カウントの学習モジュールを使用する方法を示します。 このサンプルでは、多クラスロジスティック回帰学習器を使用して、この問題をモデル化します。
カウント付きのラーニング: NYC タクシーデータを使用した二項分類: 一般公開されている NYC タクシーデータセットで二項分類を実行するために、カウントの学習モジュールを使用する方法を示します。 このサンプルでは、2クラスのロジスティック回帰学習器を使用して、この問題をモデル化します。
テクニカル ノート
このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。
ラプラス ノイズ スケール パラメーターを設定すると、同じデータ セットでのカウントおよびトレーニングが統計的に言って安全に実行できます。
想定される入力
名前 | 型 | 説明 |
---|---|---|
カウント (変換を) | ITransform インターフェイス | 適用するカウント変換 |
モジュールのパラメーター
名前 | 種類 | Range | 省略可能 | Default | 説明 |
---|---|---|---|---|---|
ガベージ ビンのしきい値 | Float | >= 0.0 f | 必須 | 10.0 f | 列の値がガベージビンに対して特徴付けされるしきい値 |
追加の先行する擬似例 | Float | >= 0.0 f | 必須 | 42.0 f | 前の配布に続く擬似的な例を含める |
ラプラス ノイズ スケール | Float | >= 0.0 f | 必須 | 0.0f | ノイズがサンプリングされる Laの分布のスケール |
出力に含まれる特徴 | OutputFeatureType | 必須 | BothCountsAndLogOdds | 出力する機能 | |
バック オフ列の無視 | Boolean | 必須 | false | 出力の IsBackOff オフ列を無視するかどうか |
出力
名前 | 型 | 説明 |
---|---|---|
変更された変換 | ITransform インターフェイス | 変更された変換 |
例外
例外 | 説明 |
---|---|
エラー 0003 | 1 つまたは複数の入力が null または空の場合、例外が発生します。 |
エラー 0086 | カウント変換が有効ではない場合、例外が発生します。 |
Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。
API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。