Databricks Runtime 5.2 ML

Databricks は、2019 年 1 月にこのバージョンをリリースしました。

Databricks Runtime 5.2 ML では、Databricks Runtime 5.2 (サポート期間終了) に基づいて、機械学習とデータ サイエンス用にすぐに利用できる環境が用意されています。 Databricks Runtime for ML には、TensorFlow、PyTorch、Keras、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 Horovod を使用した TensorFlow 分散トレーニングもサポートします。

Databricks Runtime ML クラスターを作成する手順などの詳細については、「Databricks での AI と Machine Learning」を参照してください。

新機能

Databricks Runtime 5.2 ML は Databricks Runtime 5.2 上に構築されています。 Databricks Runtime 5.2 の新機能については、「Databricks Runtime 5.2 (サポート期間終了)」のリリース ノートをご覧ください。 Databricks Runtime 5.2 ML では、ライブラリの更新プログラムに加えて、次の新機能が導入されています。

  • GraphFrames では、Databricks のパフォーマンス最適化を使用した Pregel API (Python) がサポートされるようになりました。
  • HorovodRunner によって以下の機能が追加されます。
    • GPU クラスターでは、トレーニング プロセスがワーカー ノードではなく GPU にマップされ、マルチ GPU インスタンスの種類のサポートが簡略化されます。 この組み込みサポートを使用すると、カスタム コードを使用せずにマルチ GPU マシン上のすべての GPU に配布できます。
    • HorovodRunner.run() では、最初のトレーニング プロセスから戻り値が返されます。

注意

Databricks Runtime ML リリースでは、Databricks Runtime の基本リリースのすべてのメンテナンス更新プログラムが取得されます。 すべてのメンテナンス更新プログラムのリストについては、「Databricks ランタイムのメンテナンス更新プログラム (アーカイブ済み)」を参照してください。

システム環境

Databricks Runtime 5.2 ML のシステム環境は、Databricks Runtime 5.2 とは次のように異なります。

  • Python: Python 2 クラスターの場合は 2.7.15、Python 3 クラスターの場合は 3.6.5。
  • DBUtils: Databricks Runtime 5.2 ML には、ライブラリ ユーティリティ (dbutils.library) (レガシ) が含まれていません。
  • GPU クラスターの場合、NVIDIA GPU ライブラリは次のとおりです。
    • Tesla ドライバー 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

ライブラリ

以下のセクションでは、Databricks Runtime 5.2 に含まれているものとは異なる、Databricks Runtime 5.2 ML に含まれるライブラリ一覧を示します。

Python ライブラリ

Databricks Runtime 5.2 ML では Python パッケージ管理に Conda を使用します。 そのため、プリインストールされている Python ライブラリには Databricks Runtime と大きな違いがあります。 Conda パッケージ マネージャーを使用してインストールされる、用意された Python パッケージとバージョンの全一覧を次に示します。

ライブラリ Version ライブラリ Version ライブラリ Version
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.5 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futures 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.2 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 requests 2.18.4
s3transfer 0.1.13 scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 6 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 TensorBoard 1.12.2
tensorboardX 1.4 tensorflow 1.12.0 termcolor 1.1.0
testpath 0.3.1 torch 0.4.1 torchvision 0.2.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
wheel 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

さらに、次の Spark パッケージには Python モジュールが含まれています。

Spark パッケージ Python モジュール Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R ライブラリ

R ライブラリは、Databricks Runtime 5.2 の R ライブラリと同じです。

Java と Scala のライブラリ (Scala 2.11 クラスター)

Databricks Runtime 5.2 ML には、Databricks Runtime 5.2 の Java および Scala ライブラリに加え、次の JAR が含まれています。

グループ ID 成果物 ID Version
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11