2019 年 7 月

これらの機能と Azure Databricks プラットフォームの機能強化が 2019 年 7 月にリリースされました。

Note

リリースは段階的に行われます。 お使いの Azure Databricks アカウントは、リリースの初日から最大 1 週間後まで更新されない可能性があります。

近日公開予定: Databricks 6.0 は Python 2 をサポートしません

2020 年に発表された Python 2 のサポート終了を見越して、Databricks Runtime 6.0 では Python 2 はサポートされません。 以前のバージョンの Databricks Runtime では、引き続き Python 2 をサポートします。 Databricks Runtime 6.0 は、2019 年後半にリリースされる予定です。

プールのアイドル状態のインスタンスに Databricks Runtime のバージョンをプリロードする

2019 年 7 月 30 日から 8 月 6 日: バージョン 2.103

プール内のアイドル状態のインスタンスに読み込む Databricks Runtime バージョンを選択することで、プールを使用するクラスターの起動速度を上げることができるようになりました。 プール UI のフィールドは、事前読み込み Spark バージョンと呼ばれます。

事前に読み込まれた Spark バージョン

カスタム クラスター タグとプール タグが一緒に再生される

2019 年 7 月 30 日から 8 月 6 日: バージョン 2.103

今月初め、クラスターを高速に起動するのに役立つアイドル状態のインスタンスのセットであるプールが Azure Databricks に導入されました。 元のリリースでは、プールを使用するクラスターは既定のタグとカスタム タグをプール構成から継承し、これらのタグをクラスター レベルで変更することはできませんでした。 プールを使用するクラスターに固有のカスタム タグを構成できるようになりました。このクラスターでは、プールから継承されたタグか、そのクラスターに明示的に割り当てられたタグかに関係なく、すべてのカスタム タグが適用されます。 プールから継承されたカスタム タグと同じキー名を使用してクラスター固有のカスタム タグを追加することはできません (つまり、プールから継承されたカスタム タグはオーバーライドできません)。 詳細については、「プール タグ」を参照してください。

MLflow 1.1 でのいくつかの UI と API の機能強化

2019 年 7 月 30 日から 8 月 6 日: バージョン 2.103

MLflow 1.1 で、UI と API の使いやすさを向上させるいくつかの新機能が導入されました。

  • 実行の概要 UI で、実行数が 100 を超えた場合に実行の複数のページを参照できるようになりました。 100 回目の実行後、[さらに読み込む] ボタンをクリックして、次の 100 回の実行を読み込みます。

    ページ化された実行

  • 実行比較 UI で並列座標プロットが提供されるようになりました。 このプロットでは、n 次元のパラメーターのセットとメトリックの間の関係を観察できます。 すべての実行が、メトリックの値 (精度など) に基づいて色分けされた線として視覚化され、各実行で使用されたパラメーター値が表示されます。

    並列座標プロット

  • 実行の概要 UI からタグを追加および編集し、実験の検索ビューでタグを表示できるようになりました。

  • 新しい MLflowContext API では、Python API と同様の方法で実行を作成し、ログに記録できます。 この API は、REST API をラップするだけの既存の低レベルの MlflowClient API とは対照的です。

  • DeleteTag API を使用して、MLflow の実行からタグを削除できるようになりました。

詳細については、MLflow 1.1 に関するブログ記事を参照してください。 機能と修正プログラムの完全な一覧については、MLflow の変更ログを参照してください。

pandas DataFrame 表示は Jupyter と同じようにレンダリングされる

2019 年 7 月 30 日から 8 月 6 日: バージョン 2.103

pandas DataFrame を呼び出したときに Jupyter の場合と同じように表示されるようになりました。

pandas DataFrame の表示

新しいリージョン

2019 年 7 月 30 日

Azure Databricks を次の追加のリージョンで利用できるようになりました。

  • 韓国中部
  • 南アフリカ北部

メタストアの接続制限を更新

2019 年 7 月 16 日から 23 日: バージョン 2.102

eastus、eastus2、centralus、westus、westus2、westeurope、northeurope の新しい Azure Databricks ワークスペースでは、メタストアの接続の上限が 250 に引き上げられます。 既存のワークスペースでは、中断することなく現在のメタストアを引き続き使用し、接続制限は 100 のままです。

プールに対するアクセス許可の設定 (パブリック プレビュー)

2019 年 7 月 16 日から 23 日: バージョン 2.102

プール UI で、プールを管理できるユーザーと、プールにクラスターをアタッチできるユーザーに対するアクセス許可の設定がサポートされるようになりました。

詳細については、「プールのアクセス許可」を参照してください。

Databricks Runtime 5.5 for Machine Learning

2019 年 7 月 15 日

Databricks Runtime 5.5 ML は、Databricks Runtime 5.5 LTS (サポート期間終了) の上に構築されています。 TensorFlow、PyTorch、Keras、XGBoost など、多くの一般的な機械学習ライブラリが含まれており、Horovod を使用した分散型 TensorFlow トレーニングが提供されます。

このリリースには、次の新機能と機能強化が含まれています。

  • MLflow 1.0 Python パッケージを追加しました
  • 機械学習ライブラリのアップグレード
    • TensorFlow が 1.12.0 から 1.13.1 にアップグレードされました
    • PyTorch が 0.4.1 から 1.1.0 にアップグレードされました
    • scikit-learn が 0.19.1 から 0.20.3 にアップグレードされました
  • HorovodRunner の単一ノード操作

詳細については、「Databricks Runtime 5.5 LTS for ML (サポート期間終了)」を参照してください。

Databricks Runtime 5.5

2019 年 7 月 15 日

Databricks Runtime 5.5 が利用可能になりました。 Databricks Runtime 5.5 には、Apache Spark 2.4.3、アップグレードされた Python、R、Java、および Scala ライブラリと、次の新機能が含まれています。

  • Delta Lake on Azure Databricks Auto Optimize GA
  • Delta Lake on Azure Databricks では、最小、最大、およびカウント集計クエリのパフォーマンスが向上しました
  • 改良されたバイナリ ファイル データ ソースとスカラー反復子 pandas UDF (パブリック プレビュー) を使用した、より高速なモデル推論パイプライン
  • R ノートブックの Secrets API

詳細については、「Databricks Runtime 5.5 LTS (サポート期間終了)」を参照してください。

クイック クラスター起動用にインスタンスのプールをスタンバイに保持する (パブリック プレビュー)

2019 年 7 月 9 日から 11 日: バージョン 2.101

クラスターの起動時間を短縮するために、Azure Databricks では、アイドル状態のインスタンスの事前に定義されたプールにクラスターをアタッチできるようになりました。 プールに接続されたクラスターは、そのドライバーとワーカー ノードをプールから割り当てます。 プールに、クラスターの要求に対応するための十分なアイドル状態のリソースがない場合は、クラウド プロバイダーから新しいインスタンスを割り当てることによってプールが拡張されます。 接続されたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。

プール内でインスタンスがアイドル状態のときに、Azure Databricks によって DBU が課金されることはありません。 インスタンス プロバイダーの課金が適用されます。 「価格」を参照してください。

詳細については、「プール構成リファレンス」を参照してください。

Ganglia メトリック

2019 年 7 月 9 日から 11 日: バージョン 2.101

Ganglia は、Azure Databricks クラスターで今回使用できるようになったスケーラブルな分散監視システムです。 Ganglia メトリックは、クラスターのパフォーマンスと正常性を監視するのに役立ちます。 Ganglia メトリックには、クラスターの詳細ページからアクセスできます。

Ganglia メトリック タブ

メトリックの使用と構成の詳細については、「Ganglia メトリック」を参照してください。

グローバル系列の色

2019 年 7 月 9 日から 11 日: バージョン 2.101

ノートブック内のすべてのグラフで系列の色を一貫した色に設定できるようになりました。 「グラフ間の色の一貫性」を参照してください。

グローバル系列の色