はじめに

完了

機械学習では、アルゴリズムを使って、トレーニング データに含まれる既知のラベルと特徴量の相関関係に基づいて新しいデータの不明なラベルを予測するモデルがトレーニングされます。 使用するアルゴリズムによっては、モデルのトレーニング方法を構成するために "ハイパーパラメーター" を指定することが必要になる場合があります。 たとえば、ロジスティック回帰アルゴリズムでは、"正則化率" ハイパーパラメーターを使用してオーバーフィットを打ち消すことができます。また、ディープ ラーニングのニューラル ネットワーク モデルは、トレーニング中の重みの調整方法を制御する "学習率" などのハイパーパラメーターを使います。

注意

機械学習は固有の用語を持つ学術分野です。 データ科学者は、トレーニングの特長から決定された値を "パラメーター" と呼んでいます。したがって、トレーニング動作の構成に使用されるが、トレーニング データから派生したものではない値には別の用語が必要です。そのため、"ハイパーパラメーター" という用語が使用されます。

特定のアルゴリズムに対して選択したハイパーパラメーターの値は、トレーニングするモデルに大きな影響を与える可能性があります。そのため、適切なハイパーパラメーター値を選ぶと、新しいデータで使われたときに正しく予測するモデルと、そうでないモデルとの間で、違いを生じさせることができます。

Azure Databricks では、Hyperopt ライブラリを使ってハイパーパラメーターのチューニングを自動化できます。これは、データで最適に動作する値が見つかるまで、さまざまなハイパーパラメーターの組み合わせを使ってモデルを繰り返しトレーニングして評価するプロセスです。