Azure Databricks 上で scikit-learn を使用する
このページでは、scikit-learn
パッケージを使用して Azure Databricks 内で機械学習モデルをトレーニングする方法の例を提示します。 scikit-learn は、単一ノード機械学習で最も人気のある Python ライブラリの 1 つであり、Databricks Runtime および Databricks Runtime ML 内に含まれます。 クラスターのランタイムに含まれる scikit-learn ライブラリのバージョンについては、Databricks Runtime リリース ノートを参照してください。
これらのノートブックをインポートし、お使いの Azure Databricks ワークスペース内でこれらを実行できます。
Azure Databricks をすばやく開始するためのその他のノートブックの例については、「チュートリアル: AI と機械学習を開始する」を参照してください。
scikit-learn を使用した基本的な例
このノートブックでは、Azure Databricks の機械学習モデルのトレーニングの概要を簡単に説明します。 これは、scikit-learn
パッケージを使用して、単純な分類モデルをトレーニングします。 これは、MLflow を使用してモデル開発プロセスを追跡し、Optuna を使用してハイパーパラメーターのチューニングを自動化する方法も示します。
ワークスペースが Unity Catalog に対して有効になっている場合は、次のバージョンのノートブックを使用します。
scikit-learn 分類ノートブック (Unity Catalog)
ワークスペースが Unity Catalog に対して有効になっていない場合は、次のバージョンのノートブックを使用します。
scikit-learn 分類ノートブック
Azure Databricks で scikit-learn を使用するエンドツーエンドの例
このノートブックでは、データの読み込み、モデルのトレーニング、分散ハイパーパラメーターのチューニング、モデル推論の完全なエンドツーエンドの例を、scikit-learn を使用して紹介します。 これは、MLflow モデル レジストリを使用して、お使いのモデルをログに記録および登録する、モデルのライフサイクル管理についても説明します。
ワークスペースが Unity Catalog に対して有効になっている場合は、次のバージョンのノートブックを使用します。
Databricks で scikit-learn と MLflow の統合を使用する (Unity Catalog)
ワークスペースが Unity Catalog に対して有効になっていない場合は、次のバージョンのノートブックを使用します。