モデルのトレーニング
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
教師ありの方法で、分類または回帰モデルをトレーニングします
カテゴリ: Machine Learning/トレーニング
注意
適用対象: Machine Learning Studio (クラシック) のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) でモデルのトレーニング モジュールを使用して、分類または回帰モデルをトレーニングする方法について説明します。 トレーニングは、モデルを定義してそのパラメーターを設定した後に行います。トレーニングには、タグ付けされたデータが必要です。 モデルのトレーニングを使用して、既存のモデルを新しいデータで再トレーニングすることもできます。
トレーニング プロセスのしくみ
このMachine Learning、機械学習モデルの作成と使用は通常、3 段階のプロセスです。
特定の種類のアルゴリズムを選択し、そのパラメーターまたはハイパーパラメーターを定義してモデルを構成します。 次のいずれかの種類のモデルを選択します。
- ニューラル ネットワーク、意思決定ツリー、および意思決定フォレスト、その他のアルゴリズムに基づく分類モデル。
- 回帰モデル。標準の線形回帰を含めるか、ニューラル ネットワークやベイジアン回帰などの他のアルゴリズムを使用できます。
ラベル付けされていて、かつアルゴリズムに適合したデータを含んだデータセットを指定します。 データとモデルの両方をモデルのトレーニングに接続してください。
トレーニングによって生成されるのは、データから学習された統計パターンをカプセル化する特定のバイナリ形式である iLearner です。 この形式を直接変更したり読み取りしたりすることはできません。ただし、Studio (クラシック) の他のモジュールでは、このトレーニング済みモデルを使用できます。
モデルのプロパティを確認することもできます。 詳細については、「結果」セクション を参照 してください。
トレーニングの完了後、いずれかのスコア付けモジュールと共にトレーニング済みのモデルを使用し、新しいデータについて予測を行います。
注意
その他の特殊な機械学習タスクでは、さまざまなトレーニング方法が必要であり、Studio (クラシック) には個別のトレーニング モジュールが用意されています。 たとえば、画像の検出、クラスタリング、異常な削除はすべて、カスタム トレーニング方法を使用します。 モデルのトレーニング は、回帰モデルと分類モデルでのみ使用することを目的とします。
教師ありトレーニングと教師ありトレーニング
教師あり学習または教師あり学習という用語を聞いたことがある場合があります。 モデルのトレーニングを使用した分類または回帰 モデルのトレーニング は、教師あり機械学習の 従来の例です。 つまり、パターンを学習する履歴データを含むデータセットを指定する必要があります。 データには、予測しようとしている結果 (ラベル) と関連する要因 (変数) の両方が含まれている必要があります。 機械学習モデルでは、結果を最適に予測する特徴を決定するために結果が必要です。
トレーニング プロセス中、データは結果で並べ替え、アルゴリズムによって統計パターンが抽出され、モデルが構築されます。
予測されない学習は 、結果が不明か、既知のラベルを使用しないかどうかを示します。 たとえば、クラスタリング アルゴリズムでは通常、管理されていない学習方法が採用されますが、使用可能な場合はラベルを使用できます。 もう 1 つの例は、LDA を使用した トピック モデリングです。 これらのアルゴリズムでは モデルのトレーニング を使用できません。
ヒント
機械学習初心者の場合は、 このチュートリアルでは、データの取得、アルゴリズムの構成、トレーニング、モデルの使用のプロセスについて説明します。初めての 機械学習実験を作成する
モデルのトレーニングを 使用する方法
Machine Learning Studio (クラシック) で、分類モデルまたは回帰モデルモデルを構成します。
R モデルの作成を使用して作成されたカスタム モデル をトレーニングできます。
モデルのトレーニング モジュールを実験に追加します。 このモジュールは、 [Machine Learning]\(機械学習\) カテゴリにあります。 [Train]\(トレーニング\) を展開し、モデルのトレーニング モジュールを実験にドラッグします。
左側の入力に、トレーニングされていないモードをアタッチします。 モデルのトレーニングの右側の入力にトレーニング データセットをアタッチします。
トレーニング データセットには、ラベル列が含まれている必要があります。 ラベルのない行は無視されます。
[Label column]\(ラベル列\) で [Launch column selector]\(列セレクターの起動\) をクリックし、モデルのトレーニングに使用できる結果を含んだ列を 1 つ選択します。
分類問題の場合、ラベル列にはカテゴリ値または離散値が含まれている必要があります。 たとえば、Yes/No 評価や疾患分類コード (または名前)、所得層が該当します。 非カテゴリ列を選んだ場合、トレーニング中にモジュールからエラーが返されます。
回帰問題の場合、ラベル列には、応答変数を表す数値データが含まれている必要があります。 連続スケールを表す数値データが理想です。
たとえば、信用リスク スコアや、ハード ドライブの推定故障時間、特定の日時におけるコール センターの推定着信数が該当します。 数値列を選択しなかった場合、エラーが返されます。
- 使用するラベル列を指定しない場合、Machine Learning は、データセットのメタデータを使用して、適切なラベル列を判断します。 間違った列が選択された場合は、列セレクターを使用して修正してください。
ヒント
列セレクターの使い方のヒントについては、「Select Columns in Dataset (データセットの列を選択する)」の記事を参照してください。 [WITH RULES](規則を使用) オプションと [名前別] オプションの使い方についてのヒントといくつかの一般的なシナリオが取り上げられています。
実験を実行します。 データの量が多いと、この処理にしばらく時間がかかる場合があります。
結果
モデルのトレーニング後、次の作業を行います。
モデルのパラメーターと特徴の重みを表示するには、出力を右クリックして、[Visualize]\(可視化\) を選択します。
このモデルを他の実験で使用するには、モデルを右クリックして [Save Model]\(モデルの保存\) を選択します。 モデルの名前を入力してください。
モデルはスナップショットとして保存されます。実験を繰り返し実行してもスナップショットは更新されません。
新しい値の予測にモデルを使用するには、それを新しい入力データと共にモデルのスコア付けモジュールに接続します。
関連タスク
モデルのトレーニングでサポートされていないモデルの種類をトレーニングする必要がある場合 は、いくつかのオプションがあります。
R スクリプトを使用してカスタム スコアリング方法を作成するか、使用可能な多数の R スコアリング パッケージのいずれかを使用します。
モデルをトレーニングしてスコア付けしたり、既存の Python ライブラリを使用したりするために、独自の Python スクリプトを記述します。
異常検出モデル
- 異常検出モデルのトレーニングでは、 Studio (クラシック) の異常検出モジュールがサポートされています。
レコメンド モデル
クラスター モデル
付属 の K-Means アルゴリズムには 、クラスタリング モデルのトレーニングを使用します。
その他のクラスタリング モデルの場合は、 R スクリプトまたはPython スクリプト モジュールを使用して、モデルの構成とトレーニングの両方を行います。
例
機械学習の実験でモデルのトレーニング モジュールがどのように使用されるのかの例については、次のAzure AI Gallery。
想定される入力
名前 | 型 | 説明 |
---|---|---|
未トレーニング モデル | ILearner インターフェイス | 未トレーニングの学習器 |
データセット | データ テーブル | トレーニング データ |
モジュールのパラメーター
名前 | Range | Type | Default | 説明 |
---|---|---|---|---|
ラベル列 | any | ColumnSelection | ラベルまたは結果列を含む列を選択します |
出力
名前 | 型 | 説明 |
---|---|---|
トレーニングされたモデル | ILearner インターフェイス | トレーニング済みの学習器 |
例外
すべてのモジュールエラーの一覧については、「 モジュールのエラーコード」を参照してください。
例外 | 説明 |
---|---|
エラー 0032 | 引数が数値ではない場合、例外が発生します。 |
エラー 0033 | 引数が無限である場合、例外が発生します。 |
エラー 0083 | トレーニングに使用されたデータセットを学習器の具象型に使用できない場合、例外が発生します。 |
エラー 0035 | 特定のユーザーまたは項目に対して特徴が提供されなかった場合、例外が発生します。 |
エラー 0003 | 1 つまたは複数の入力が null または空の場合、例外が発生します。 |
エラー 0020 | モジュールに渡された一部のデータセットの列の数が少なすぎる場合、例外が発生します。 |
エラー 0021 | モジュールに渡された一部のデータセットの行の数が少なすぎる場合、例外が発生します。 |
エラー 0013 | 渡されたモジュール学習器の型が無効の場合に、例外が発生します。 |