Azure Databricks で XGBoost を使用する
この記事では、Azure Databricks で XGBoost を使用して機械学習モデルをトレーニングする例を示します。 Databricks Runtime for Machine Learning には、Python と Scala の両方のための XGBoost ライブラリが含まれています。 XGBoost モデルは、個々のコンピューターまたは分散方式でトレーニングできます。
単一ノードで XGBoost モデルをトレーニングする
Python xgboost
パッケージを使用してモデルをトレーニングできます。 このパッケージでは、単一ノードのワークロードのみがサポートされます。 PySpark ML パイプラインをトレーニングし、分散トレーニングを利用するには、「XGBoost モデルの分散トレーニング」を参照してください。
XGBoost Python ノートブック
XGBoost モデルの分散トレーニング
XGBoost モデルの分散トレーニングの場合、Databricks には xgboost
パッケージに基づく PySpark 推定器が含まれています。 Databricks には、Scala パッケージ xgboost-4j
も含まれています。 ノートブックの詳細と例については、次を参照してください。
- xgboost.spark を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降)
- sparkdl.xgboost を使用した XGBoost モデルの分散トレーニング (Databricks Runtime 12.0 ML 以降では非推奨)
- Scala を使用した XGBoost モデルの分散トレーニング
Azure Databricks に XGBoost をインストールする
Databricks Runtime に XGBoost をインストールする必要がある場合、または Databricks Runtime ML にプレインストールされているバージョンとは異なるバージョンを使用する場合は、次の手順に従います。
Databricks Runtime ML に XGBoost をインストールする
XGBoost は Databricks Runtime ML に含まれています。 これらのライブラリは、パッケージを何もインストールしなくても Databricks Runtime ML で使用できます。
使用している Databricks Runtime ML バージョンにインストールされている XGBoost のバージョンについては、リリース ノートを参照してください。 他の Python バージョンを Databricks Runtime ML にインストールするには、Databricks PyPI ライブラリとして XGBoost をインストールします。 次のように指定し、<xgboost version>
を目的のバージョンに置き換えます。
xgboost==<xgboost version>
Databricks Runtime に XGBoost をインストールする
Python パッケージ: ノートブック セルで次のコマンドを実行します。
%pip install xgboost
特定のバージョンをインストールするには、<xgboost version>
を目的のバージョンに置き換えます。
%pip install xgboost==<xgboost version>
- Scala/Java パッケージ: Databricks ライブラリとして、Spark パッケージ名
xgboost-linux64
でインストールします。