Databricks Runtime 5.3 ML (サポート期間終了)

Note

この Databricks Runtime バージョンのサポートは終了しました。 サポート終了日については、「サポート終了の履歴」を参照してください。 サポートされている Databricks Runtime のすべてのバージョンについては、「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。

Databricks では、2019 年 4 月にこのイメージをリリースしました。

Databricks Runtime 5.3 ML では、Databricks Runtime 5.3 (サポート期間終了) に基づいて、機械学習とデータ サイエンス用にすぐに利用できる環境が用意されています。 Databricks Runtime for ML には、TensorFlow、PyTorch、Keras、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 また、Horovod を使用した分散型ディープ ラーニング トレーニングもサポートされています。

Databricks Runtime ML クラスターの作成手順を含む詳細については、「Databricks 上の AI と Machine Learning」を参照してください。

新機能

Databricks Runtime 5.3 ML は Databricks Runtime 5.3 上に構築されています。 Databricks Runtime 5.3 の新機能については、「Databricks Runtime 5.3 (サポート期間終了)」のリリース ノートをご覧ください。 Databricks Runtime 5.3 ML では、ライブラリの更新プログラムに加えて、次の新機能が導入されています。

  • MLflow + Apache Spark MLlib の統合: Databricks Runtime 5.3 ML では、PySpark チューニング アルゴリズムの CrossValidatorTrainValidationSplit を使用して適合するモデルに対する MLflow 実行の自動ログ記録をサポートしています。

    重要

    この機能は、プライベート プレビュー段階にあります。 それを有効にする方法については、Azure Databricks 営業担当者にお問い合わせください。

  • 次のライブラリを最新バージョンにアップグレードします。

    • PyArrow 0.8.0 から 0.12.1: BinaryType は Arrow ベースの変換でサポートされ、PandasUDF で使用できます。
    • Horovod 0.15.2 から 0.16.0。
    • TensorboardX 1.4 から 1.6。

Databricks ML Model Export API は非推奨になりました。 Azure Databricks では代わりに MLeap の使用をお勧めします。これによって、より広い範囲の MLlib モデルの種類が対象になります。 詳細については、「MLeap ML モデルのエクスポート」を参照してください。

注意

さらに、Databricks Runtime 5.3 には、データの読み込み、モデルのチェックポイント処理、各 worker から共有ストレージ場所 file:/dbfs/ml へのログ記録用に最適化された、新しい FUSE マウントが含まれています。これは、ディープ ラーニング ワークロードで高パフォーマンスの I/O を実現します。 機械学習とディープ ラーニング用のデータの読み込みを参照してください。

メンテナンスの更新

Databricks Runtime 5.4 ML メンテナンス更新プログラムに関するページを参照してください。

システム環境

Databricks Runtime 5.3 ML のシステム環境は、Databricks Runtime 5.3 とは次のように異なります。

  • Python: Python 2 クラスターの場合は 2.7.15、Python 3 クラスターの場合は 3.6.5。
  • DBUtils: Databricks Runtime 5.3 ML には、ライブラリ ユーティリティ (dbutils.library) (レガシ) が含まれていません。
  • GPU クラスターの場合、NVIDIA GPU ライブラリは次のとおりです。
    • Tesla ドライバー 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

ライブラリ

以下のセクションでは、Databricks Runtime 5.3 に含まれているものとは異なる、Databricks Runtime 5.3 ML に含まれるライブラリ一覧を示します。

最上位層ライブラリ

Databricks Runtime 5.3 ML には、次の最上位層ライブラリが含まれています。

Python ライブラリ

Databricks Runtime 5.3 ML では Python パッケージ管理に Conda を使用します。 そのため、プリインストールされている Python ライブラリには Databricks Runtime と大きな違いがあります。 Conda パッケージ マネージャーを使用してインストールされる、用意された Python パッケージとバージョンの全一覧を次に示します。

ライブラリ Version ライブラリ Version ライブラリ Version
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
cryptography 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futures 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
requests 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
6 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
TensorBoard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

さらに、次の Spark パッケージには Python モジュールが含まれています。

Spark パッケージ Python モジュール Version
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R ライブラリ

R ライブラリは、Databricks Runtime 5.3 の R ライブラリと同じです。

Java と Scala のライブラリ (Scala 2.11 クラスター)

Databricks Runtime 5.3 ML には、Databricks Runtime 5.3 の Java および Scala ライブラリに加え、次の JAR が含まれています。

グループ ID 成果物 ID Version
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11