Azure Databricks 上で scikit-learn を使用する

このページでは、scikit-learn パッケージを使用して Azure Databricks 内で機械学習モデルをトレーニングする方法の例を提示します。 scikit-learn は、単一ノード機械学習で最も人気のある Python ライブラリの 1 つであり、Databricks Runtime および Databricks Runtime ML 内に含まれます。 クラスターのランタイムに含まれる scikit-learn ライブラリのバージョンについては、Databricks Runtime リリース ノートを参照してください。

これらのノートブックをインポートし、お使いの Azure Databricks ワークスペース内でこれらを実行できます。

Azure Databricks をすばやく開始するためのその他のノートブックの例については、「チュートリアル: AI と機械学習を開始する」を参照してください。

scikit-learn を使用した基本的な例

このノートブックでは、Azure Databricks の機械学習モデルのトレーニングの概要を簡単に説明します。 これは、scikit-learn パッケージを使用して、単純な分類モデルをトレーニングします。 これは、MLflow を使用してモデル開発プロセスを追跡し、Optuna を使用してハイパーパラメーターのチューニングを自動化する方法も示します。

ワークスペースが Unity Catalog に対して有効になっている場合は、次のバージョンのノートブックを使用します。

scikit-learn 分類ノートブック (Unity Catalog)

ノートブックを入手

ワークスペースが Unity Catalog に対して有効になっていない場合は、次のバージョンのノートブックを使用します。

scikit-learn 分類ノートブック

ノートブックを入手

Azure Databricks で scikit-learn を使用するエンドツーエンドの例

このノートブックでは、データの読み込み、モデルのトレーニング、分散ハイパーパラメーターのチューニング、モデル推論の完全なエンドツーエンドの例を、scikit-learn を使用して紹介します。 これは、MLflow モデル レジストリを使用して、お使いのモデルをログに記録および登録する、モデルのライフサイクル管理についても説明します。

ワークスペースが Unity Catalog に対して有効になっている場合は、次のバージョンのノートブックを使用します。

Databricks で scikit-learn と MLflow の統合を使用する (Unity Catalog)

ノートブックを入手

ワークスペースが Unity Catalog に対して有効になっていない場合は、次のバージョンのノートブックを使用します。

Databricks で scikit-learn と MLflow の統合を使用する

ノートブックを入手