Databricks Runtime 7.0 (EoS)

[アーティクル]
09/03/2024

Note

この Databricks Runtime バージョンのサポートは終了しました。サポート終了日については、「サポート終了の履歴」を参照してください。サポートされている Databricks Runtime のすべてのバージョンについては、「Databricks Runtime リリースノートのバージョンと互換性」を参照してください。

Databricks は、2020 年 6 月にこのバージョンをリリースしました。

次のリリースノートには、Apache Spark 3.0 で稼働する Databricks Runtime 7.0 に関する情報が記載されています。

新機能

Databricks Runtime 7.0 には、次の新機能があります。

Scala 2.12

Databricks Runtime 7.0 では、Scala が 2.11.12 から 2.12.10 にアップグレードされています。 Scala 2.12 と 2.11 の間の変更リストは「Scala 2.12.0 リリースノート」にあります。
Databricks Runtime 6.4 でリリースされた自動ローダー (パブリックプレビュー) が、Databricks Runtime 7.0 で改善されました。

自動ローダーを使用すると、ETL 中にクラウド BLOB ストアに到着した新しいデータファイルを段階的に処理する、より効率的な方法が提供されます。これは、クラウドディレクトリを繰り返し一覧表示し、表示されたファイルを追跡することで新しいファイルを識別する、ファイルベースの構造化ストリーミングに対する機能強化であり、ディレクトリが大きくなるにつれて非常に非効率になる可能性があります。自動ローダーは、ファイル通知ベースの構造化ストリーミングよりも便利で効果的です。クラウドでファイル通知サービスを手動で構成する必要があり、既存のファイルをバックフィルすることはできません。詳細については、「自動ローダー」を参照してください。

Databricks Runtime 7.0 では、自動ローダーを使用するためにカスタムの Databricks Runtime イメージを要求する必要がなくなりました。
COPY INTO (パブリックプレビュー) は、べき等な再試行で Delta Lake にデータを読み込む機能ですが、Databricks Runtime 7.0 で改善されました

Databricks Runtime 6.4 でパブリックプレビューとしてリリースされた COPY INTO SQL コマンドを使用すると、べき等再試行で Delta Lake にデータを読み込むことができます。現在では、Delta Lake にデータを読み込むには、Apache Spark DataFrame API を使用する必要があります。読み込み中にエラーが発生した場合は、それらを効果的に処理する必要があります。新しい COPY INTO コマンドは、SQL でのデータの読み込みで、使い慣れた宣言型インターフェイスを提供します。このコマンドによって、以前に読み込まれたファイルを追跡し、エラーが発生した場合に安全に再実行します。詳細については、「COPY INTO」を参照してください。

機能強化

Azure Synapse (以前の SQL Data Warehouse) コネクタで COPY ステートメントがサポートされます。

COPY の主な利点は、低い権限をもつユーザーが、 Azure Synapse で厳密な CONTROL アクセス許可を必要とすることなく Azure Synapse にデータを書き込めることです。
ノートブックのセルで Matplolib オブジェクトをインラインで表示するのに、%matplotlib inline という魔法のコマンドは不要になりました。既定で常にインラインに表示されます。
Matplolib の図形は transparent=False でレンダリングされるようになり、ユーザー指定の背景が失われることがなくなりました。この動作は、Spark の構成で spark.databricks.workspace.matplotlib.transparent true を設定することでオーバーライドできます。
高コンカレンシーモードのクラスターで構造化ストリーミングの実稼働ジョブを実行すると、ジョブの再起動が失敗することがあります。これは、以前に実行したジョブが正常に終了しなかったことが原因です。 Databricks Runtime 6.3 ではクラスターで SQL 構成 spark.sql.streaming.stopActiveRunOnRestart true を設定できる機能が導入され、以前の実行が確実に停止するようにできます。この構成は Databricks Runtime 7.0 では既定で設定されます。

ライブラリの主な変更点

Python パッケージ

アップグレードされた主な Python パッケージは次のとおりです。

boto3 1.9.162 -> 1.12.0
matplotlib 3.0.3 -> 3.1.3
numpy 1.16.2 -> 1.18.1
pandas 0.24.2 -> 1.0.1
pip 19.0.3 -> 20.0.2
pyarrow 0.13.0 -> 0.15.1
psycopg2 2.7.6 -> 2.8.4
scikit-learn 0.20.3 -> 0.22.1
scipy 1.2.1 -> 1.4.1
seaborn 0.9.0 -> 0.10.0

削除された Python パッケージは次のとおりです。

boto (use boto3)
pycurl

注意

Databricks Runtime 7.0 での Python 環境は、Python 3.7 を使用し、これはインストールされている Ubuntu システムの Python とは異なります。/usr/bin/python および /usr/bin/python2 は Python 2.7 にリンクされ、/usr/bin/python3 は Python 3.6 にリンクされます。

R パッケージ

追加された R パッケージは次のとおりです。

broom
highr
isoband
knitr
markdown
modelr
reprex
rmarkdown
rvest
selectr
tidyverse
tinytex
xfun

削除された R パッケージは次のとおりです。

abind
bitops
car
carData
doMC
gbm
h2o
littler
lme4
mapproj
maps
maptools
MatrixModels
minqa
mvtnorm
nloptr
openxlsx
pbkrtest
pkgKitten
quantreg
R.methodsS3
R.oo
R.utils
RcppEigen
RCurl
rio
sp
SparseM
statmod
zip

Java ライブラリと Scala ライブラリ

Hive ユーザー定義関数の処理に使用される Apache Hive のバージョンと Hive SerDes が 2.3 にアップグレードされました。
以前は、Azure Storage jar と Key Vault jar は Databricks Runtime の一部としてパッケージ化されていました。そのため、クラスターにアタッチされているライブラリの異なるバージョンを使用することができませんでした。 Classes under com.microsoft.azure.storage および com.microsoft.azure.keyvault の下のクラスは Databricks Runtime のクラスパス上になくなりました。これらのいずれかのクラスパスに依存している場合、今後はクラスターに Azure Storage SDK または Azure Key Vault SDK をアタッチする必要があります。

動作の変更

このセクションでは、Databricks Runtime 6.6 から Databricks Runtime 7.0 での動作の変更を示します。 Databricks Runtime の以前のリリースから Databricks Runtime 7.0 およびそれ以降へワークロードを移行する際には、これらを理解している必要があります。

Spark の動作の変更

Databricks Runtime 7.0 は Spark 3.0 上で構築された最初の Databricks Runtime であるため、Spark 2.4 上に構築された Databricks Runtime 5.5 LTS または 6.x からワークロードを移行するときには、多くの変更点があり注意が必要です。これらの変更については、このリリースノートの記事の Apache Spark セクションの各機能領域の「動作の変更」セクションを参照してください。

Spark core、Spark SQL、構造化ストリーミングの動作の変更
MLlib の動作の変更
SparkR の動作の変更

その他の動作の変更

Scala 2.12 へのアップグレードには、次の変更が伴います。
- パッケージセルシリアル化の処理方法が異なります。次の例は、動作の変更点とその処理方法を示しています。
  
  次のパッケージセルで定義されているとおりに foo.bar.MyObjectInPackageCell.run() を実行すると、エラー java.lang.NoClassDefFoundError: Could not initialize class foo.bar.MyObjectInPackageCell$ がトリガーされます。
```
package foo.bar

case class MyIntStruct(int: Int)

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

object MyObjectInPackageCell extends Serializable {

  // Because SparkSession cannot be created in Spark executors,
  // the following line triggers the error
  // Could not initialize class foo.bar.MyObjectInPackageCell$
  val spark = SparkSession.builder.getOrCreate()

  def foo: Int => Option[MyIntStruct] = (x: Int) => Some(MyIntStruct(100))

  val theUDF = udf(foo)

  val df = {
    val myUDFInstance = theUDF(col("id"))
    spark.range(0, 1, 1, 1).withColumn("u", myUDFInstance)
  }

  def run(): Unit = {
    df.collect().foreach(println)
  }
}
```
  このエラーを回避するために、シリアル化可能なクラスの内部で MyObjectInPackageCell をラップできます。
- DataStreamWriter.foreachBatch を使用するときに、ソースコードの更新が必要になる場合があります。この変更は、Scala 2.12 ではラムダ式から SAM 型への自動変換が行われるため、あいまいさが発生する可能性があるという事実に起因します。
  
  たとえば、次の Scala コードはコンパイルできません。
```
streams
  .writeStream
  .foreachBatch { (df, id) => myFunc(df, id) }
```
  コンパイルエラーを修正するには、foreachBatch { (df, id) => myFunc(df, id) } を foreachBatch(myFunc _) に変更するか、foreachBatch(new VoidFunction2 ...) のように Java API を明示的に使用します。
Hive ユーザー定義関数と Hive SerDes の処理に使用される Apache Hive バージョンが 2.3 にアップグレードされるため、次の 2 つの変更が必要になります。
- Hive の SerDe インターフェイスが抽象クラス AbstractSerDe によって置き換えられます。すべてのカスタム Hive SerDe 実装で、AbstractSerDe への移行が必要です。
- spark.sql.hive.metastore.jars を builtin に設定すると、Databricks Runtime 7.0 のメタストアにアクセスするために、Hive 2.3 メタストアクライアントが使用されます。 Hive 1.2 ベースの外部メタストアにアクセスする必要がある場合は、spark.sql.hive.metastore.jars を、Hive 1.2 jar が格納されるフォルダーに設定します。

非推奨と削除

データスキップインデックスは、Databricks Runtime 4.3 で非推奨になり、Databricks Runtime 7.0 で削除されました。代わりに Delta テーブルを使用することをお勧めします。これにより、向上したデータスキップ機能が提供されます。
Databricks Runtime 7.0 では、Apache Spark の基になるバージョンが Scala 2.12 を使用しています。 Scala 2.11 に対してコンパイルされたライブラリは、予期しない動作によって Databricks Runtime 7.0 クラスターを無効にする可能性があります。そのため、Databricks Runtime 7.0 以降を実行しているクラスターでは、すべてのクラスターにインストールされるように構成されたライブラリはインストールされません。クラスターの [ライブラリ] タブには、ステータス Skipped と、ライブラリ処理での変更について説明する非推奨メッセージが表示されます。ただし、"Azure Databricks プラットフォームバージョン 3.20 がワークスペースにリリースされる前の" Databricks Runtime の以前のバージョンで作成されたクラスターがある場合は、Databricks Runtime 7.0 を使用するようにそのクラスターを編集しようとすると、すべてのクラスターにインストールされるように構成されたライブラリはすべて、そのクラスターにインストールされます。この場合は、インストールされたライブラリ内の互換性がない JAR が原因で、クラスターが無効になることがあります。回避策は、クラスターを複製するか、新しいクラスターを作成することです。

Apache Spark

Databricks Runtime 7.0 には、Apache Spark 3.0 が含まれています。

Core、Spark SQL、構造化ストリーミング

ハイライト

(Project Hydrogen) アクセラレータ対応スケジューラ (SPARK-24615)
アダプティブクエリの実行 (SPARK-31412)
動的なパーティションの排除 (SPARK-11150)
型のヒントで pandas UDF API を再設計 (SPARK-28264)
構造化ストリーミング UI (SPARK-29543)
カタログプラグイン API (SPARK-31121)
改善された ANSI SQL の互換性

パフォーマンスの向上

アダプティブクエリの実行 (SPARK-31412)
- 基本フレームワーク (SPARK-23128)
- シャッフル後のパーティション番号の調整 (SPARK-28177)
- 動的サブクエリの再利用 (SPARK-28753)
- ローカルシャッフルリーダー (SPARK-28560)
- スキューの結合の最適化 (SPARK-29544)
- 連続するシャッフルブロックの読み取りの最適化 (SPARK-9853)
動的なパーティションの排除 (SPARK-11150)
その他のオプティマイザールール
- ルール ReuseSubquery (SPARK-27279)
- ルール PushDownLeftSemiAntiJoin (SPARK-19712)
- ルール PushLeftSemiLeftAntiThroughJoin (SPARK-19712)
- ルール ReplaceNullWithFalse (SPARK-25860)
- ルール結合/集計のサブクエリで制限なしの並べ替えを除外 (SPARK-29343)
- ルール PruneHiveTablePartitions (SPARK-15616)
- Generate から不要な入れ子になったフィールドを除外 (SPARK-27707)
- ルール RewriteNonCorrelatedExists (SPARK-29800)
テーブルキャッシュの同期コストを最小化 (SPARK-26917)、(SPARK-26617)、(SPARK-26548)
集計コードを小さい関数に分割 (SPARK-21870)
INSERT および ALTER TABLE ADD PARTITION コマンドにバッチ処理を追加 (SPARK-29938)

拡張性の機能強化

カタログプラグイン API (SPARK-31121)
データソース V2 API リファクタリング (SPARK-25390)
Hive 3.0 および 3.1 メタストアのサポート (SPARK-27970)、(SPARK-24360)
Spark プラグインのドライバーへのインターフェイスを拡張 (SPARK-29396)
Executor プラグインを使用した Spark メトリクスシステムのユーザー定義メトリクスによる拡張 (SPARK-28091)
拡張 Columnar Processing Support 向けの開発者用 API (SPARK-27396)
DSV2: parquet、ORC、CSV、JSON、Kafka、Text、Avro を使用した組み込みのソース移行 (SPARK-27589)
SparkExtensions での FunctionInjection を許可 (SPARK-25560)
アグリゲーターの UDAF としての登録を許可 (SPARK-27296)

コネクタの機能強化

非決定的式による列の排除 (SPARK-29768)
データソーステーブルでの spark.sql.statistics.fallBackToHdfs のサポート (SPARK-25474)
ファイルソースでのサブクエリフィルターを使用したパーティションの排除を許可 (SPARK-26893)
データソースフィルターでのサブクエリのプッシュダウンを回避 (SPARK-25482)
ファイルソースからの再帰的なデータ読み込み (SPARK-27990)
Parquet/ORC
- 選言述語のプッシュダウン (SPARK-27699)
- 入れ子になった列の排除を一般化 (SPARK-25603) し、既定でオンに設定 (SPARK-29805)
- Parquet のみ
  - 入れ子になったフィールドの Parquet 述語プッシュダウン (SPARK-17636)
- ORC のみ
  - ORC のマージスキーマをサポート (SPARK-11412)
  - ORC の入れ子になったスキーマを排除 (SPARK-27034)
  - ORC の述語変換の複雑さを軽減 (SPARK-27105, SPARK-28108)
  - Apache ORC を 1.5.9 にアップグレード (SPARK-30695)
CSV
- CSV データソースでのフィルターのプッシュダウンをサポート (SPARK-30323)
Hive SerDe
- ネイティブデータソースを使用して Hive serde テーブルを読み取る場合はスキーマ推論なし (SPARK-27119)
- Hive CTAS コマンドでは、変換可能な場合はデータソースを使用する必要がある (SPARK-25271)
- ネイティブデータソースを使用してパーティション分割された Hive テーブルの挿入を最適化する (SPARK-28573)
Apache Kafka
- Kafka ヘッダーのサポートを追加 (SPARK-23539)
- Kafka 委任トークンのサポートを追加 (SPARK-25501)
- Kafka ソースに新しいオプションを導入: タイムスタンプによるオフセット (開始/終了) (SPARK-26848)
- Kafka バッチソースで minPartitions オプションとストリーミングソース v1 をサポート (SPARK-30656)
- Kafka を 2.4.1 にアップグレード (SPARK-31126)
新しい組み込みのデータソース
- 新しい組み込みのバイナリファイルデータソース (SPARK-25348)
- 新しい no-op バッチデータソース (SPARK-26550) と no-op ストリーミングシンク (SPARK-26649)

機能強化

[Hydrogen] アクセラレータ対応スケジューラ (SPARK-24615)
Join Hint の完全なセットを導入 (SPARK-27225)
SQL クエリに PARTITION BY ヒントを追加 (SPARK-28746)
Thrift サーバーでのメタデータ処理 (SPARK-28426)
scala API に高次の関数を追加 (SPARK-27297)
バリアタスクコンテキストでシンプルなすべて収集をサポート (SPARK-30667)
Hive UDF で UDT 型をサポート (SPARK-28158)
Catalyst で DELETE/UPDATE/MERGE 演算子をサポート (SPARK-28351, SPARK-28892, SPARK-28893)
DataFrame.tail を実装 (SPARK-30185)
新しい組み込み関数
- sinh、cosh、tanh、asinh、acosh、atanh (SPARK-28133)
- any、every、some (SPARK-19851)
- bit_and。bit_or (SPARK-27879)
- bit_count (SPARK-29491)
- bit_xor (SPARK-29545)
- bool_and、bool_or (SPARK-30184)
- count_if (SPARK-27425)
- date_part (SPARK-28690)
- extract (SPARK-23903)
- forall (SPARK-27905)
- from_csv (SPARK-25393)
- make_date (SPARK-28432)
- make_interval (SPARK-29393)
- make_timestamp (SPARK-28459)
- map_entries (SPARK-23935)
- map_filter (SPARK-23937)
- map_zip_with (SPARK-23938)
- max_by、min_by (SPARK-27653)
- schema_of_csv (SPARK-25672)
- to_csv (SPARK-25638)
- transform_keys (SPARK-23939)
- transform_values (SPARK-23940)
- typeof (SPARK-29961)
- version (SPARK-29554)
- xxhash64 (SPARK-27099)
既存の組み込み関数の機能強化
- 組み込みの date-time 関数/演算の改善 (SPARK-31415)
- from_json で FAILFAST モードをサポート (SPARK-25243)
- array_sort に新しい比較子パラメーターを追加 (SPARK-29020)
- フィルターでインデックスを入力として取得できるだけでなく、要素も取得可能 (SPARK-28962)

SQL の互換性の機能強化

予期的グレゴリオ暦に切り替え (SPARK-26651)
Spark の独自の datetime パターン定義を構築 (SPARK-31408)
テーブル挿入に対して ANSI ストア割り当てポリシーを導入 (SPARK-28495)
既定でテーブルの挿入で ANSI ストアの割り当て規則に従う (SPARK-28885)
SQLConf spark.sql.ansi.enabled を追加 (SPARK-28989)
集計式で ANSI SQL フィルター句をサポート (SPARK-27986)
ANSI SQL OVERLAY 関数をサポート (SPARK-28077)
ANSI の入れ子のカッコ内コメントをサポート (SPARK-28880)
整数のオーバーフロー時に例外をスロー (SPARK-26218)
間隔の算術演算のオーバーフローチェック (SPARK-30341)
無効な文字列が数値型にキャストされたときに例外をスロー (SPARK-30292)
間隔の乗除算のオーバーフロー動作を他の演算と一貫性のあるものにする (SPARK-30919)
char と decimal について ANSI の型の別名を追加 (SPARK-29941)
SQL パーサーで defines ANSI 準拠の予約済みキーワードを定義 (SPARK-26215)
ANSI モードがオンのとき予約済みキーワードを識別子として使用できない (SPARK-26976)
ANSI SQL LIKE ... ESCAPE 構文をサポート (SPARK-28083)
ANSI SQL Boolean-Predicate 構文をサポート (SPARK-27924)
相関サブクエリの処理のサポートを向上 (SPARK-18455)

監視とデバッグの機能拡張

新しい構造化ストリーミング UI (SPARK-29543)
SHS: ストリーミングアプリの実行のイベントログのロールオーバーを許可 (SPARK-28594)
ユーザーがバッチクエリとストリーミングクエリで任意のメトリックを定義して監視できる API を追加 (SPARK-29345)
クエリごとの計画時間を追跡するためのインストルメンテーション (SPARK-26129)
基本的なシャッフルメトリックを SQL交換演算子に配置 (SPARK-26139)
SQL ステートメントを呼び出しサイトではなく SQL Tab に表示 (SPARK-27045)
SparkUI にヒントを追加 (SPARK-29449)
History Server の同時実行パフォーマンスを改善 (SPARK-29043)
EXPLAIN FORMATTED コマンド (SPARK-27395)
切り捨てられたプランと生成されたコードのファイルへのダンプをサポート (SPARK-26023)
クエリの出力を記述する describe フレームワークを強化 (SPARK-26982)
SHOW VIEWS コマンドを追加 (SPARK-31113)
SQL パーサーのエラーメッセージを改善 (SPARK-27901)
Prometheus の監視をネイティブでサポート (SPARK-29429)

PySpark の機能強化

種類のヒントを含め、再設計された pandas UDF (SPARK-28264)
Pandas UDF パイプライン (SPARK-26412)
Scalar Pandas UDF で引数および戻り値の型として StructType をサポート (SPARK-27240 )
Pandas UDF を使用した Dataframe Cogroup をサポート (SPARK-27463)
mapInPandas を追加して DataFrame の反復子を許可 (SPARK-28198)
一部の SQL 関数でも列名を受け取る必要がある (SPARK-26979)
PySpark SQL 例外をより Python 的なものに (SPARK-31849)

ドキュメントとテストカバレッジの機能強化

SQL レファレンスの作成 (SPARK-28588)
WebUI のユーザーガイドの作成 (SPARK-28372)
SQL 構成ドキュメントのページの作成 (SPARK-30510)
Spark 構成のバージョン情報を追加 (SPARK-30839)
PostgreSQL からのポート回帰テスト (SPARK-27763)
Thrift サーバーテストカバレッジ (SPARK-28608)
UDF (python UDF、pandas UDF、scala UDF) のテストカバレッジ (SPARK-27921)

その他の注目すべき変更点

組み込みの Hive 実行を 1.2.1 から 2.3.6 にアップグレード (SPARK-23710、SPARK-28723、SPARK-31381)
既定で Apache Hive 2.3 依存関係を使用 (SPARK-30034)
GA Scala 2.12 (2.11 は削除) (SPARK-26132)
動的割り当てでの Executor のタイムアウトのロジックを改善 (SPARK-20286)
シャッフルサービスによって提供され、動的割り当てでは無視される、ディスク永続化された RDD ブロック (SPARK-27677)
新しい Executor を取得してブロックリストに起因するハングを回避 (SPARK-22148)
Netty のメモリプールアロケーターの共有を許可 (SPARK-24920)
TaskMemoryManager と UnsafeExternalSorter$SpillableIterator の間のデッドロックを修正 (SPARK-27338)
StructuredStreaming の AdmissionControl API を導入 (SPARK-30669)
Spark の履歴のメインページのパフォーマンスを改善 (SPARK-25973)
SQL リスナーでのメトリック集計の高速化とスリムダウン (SPARK-29562)
シャッフルブロックが同じホストからフェッチされるときにネットワークを回避 (SPARK-27651)
DistributedFileSystem のファイル一覧を改善 (SPARK-27801)

Spark core、Spark SQL、構造化ストリーミングの動作の変更

次の移行ガイドで Apache Spark 2.4 と 3.0 との間の動作の変更を一覧で示しています。これらの変更によって、Databricks Runtime の以前のバージョンで実行されていたジョブの更新が必要になる場合があります。

以下の動作の変更は、これらの移行ガイドでは説明されていません。

Spark 3.0 では非推奨のクラス org.apache.spark.sql.streaming.ProcessingTime が削除されました。代わりに org.apache.spark.sql.streaming.Trigger.ProcessingTime を使用してください同様に、org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger が削除されました。代わりに Trigger.Continuous を使用してください。org.apache.spark.sql.execution.streaming.OneTimeTrigger は非表示になりました。代わりに Trigger.Once を使用してください。 (SPARK-28199)
Databricks Runtime 7.0 では、Hive SerDe テーブルを読み取るときに、既定では、テーブルパーティションではないサブディレクトリの下にあるファイルの読み取りは Spark によって禁止されています。有効にするには、構成 spark.databricks.io.hive.scanNonpartitionedDirectory.enabled を true に設定します。これは、Spark ネイティブテーブルリーダーとファイルリーダーには影響しません。

MLlib

ハイライト

複数列のサポートが Binarizer (SPARK-23578)、StringIndexer (SPARK-11215)、StopWordsRemover (SPARK-29808)、PySpark QuantileDiscretizer (SPARK-22796) に追加
ツリーベースの特徴変換のサポート (SPARK-13677)
2つの新しいエバリュエーター MultilabelClassificationEvaluator (spark-16692) と RankingEvaluator (spark-28045) が追加されました
サンプルの重みのサポートが DecisionTreeClassifier/Regressor (SPARK-19591)、RandomForestClassifier/Regressor (SPARK-9478)、GBTClassifier/Regressor (SPARK-9612)、RegressionEvaluator (SPARK-24102)、BinaryClassificationEvaluator (SPARK-24103)、BisectingKMeans (SPARK-30351)、KMeans (SPARK-29967)、GaussianMixture (SPARK-30102) に追加
PowerIterationClustering の R API が追加 (SPARK-19827)
ML パイプラインの状態を追跡するための Spark ML リスナーを追加 (SPARK-23674)
Python の勾配ブーステッドツリーに検証セットへの適合が追加 (SPARK-24333)
RobustScaler トランスフォーマーが追加されました (SPARK-28399)
Factorization Machines の分類子とリグレッサーが追加されました (SPARK-29224)
ガウス Naive Bayes (SPARK-16872) と補数 Naive Bayes (SPARK-29942) が追加
Scala と Python との間の ML 関数のパリティ (SPARK-28958)
predictRaw がすべての Classification モデルでパブリックになりました。 predictProbability が、LinearSVCModel を除くすべての Classification モデルでパブリックになりました。 (SPARK-30358)

MLlib の動作の変更

移行ガイド: MLlib (Machine Learning)

以下の動作の変更は、この移行ガイドでは説明されていません。

Spark 3.0 では、Pyspark 内の多クラスロジスティック回帰は、サブクラス BinaryLogisticRegressionSummary ではなく、LogisticRegressionSummary を (正しく) 返すようになりました。 BinaryLogisticRegressionSummary によって公開される追加のメソッドは、この場合、いずれにしても機能しません。 (SPARK-31681)
Spark 3.0 では、pyspark.ml.param.shared.Has* mixin は、set*(self, value) setter メソッドを提供しなくなりました。代わりにそれぞれの self.set(self.*, value) を使用してください。詳細については、SPARK-29093 を参照してください。 (SPARK-29093)

SparkR

SparkR の相互運用性における矢印の最適化 (SPARK-26759)
ベクター化 R gapply ()、dapply ()、createDataFrame、collect () によるパフォーマンスの向上
R シェル、IDE の “一括実行” (SPARK-24572)
Power Iteration Clustering のための R API (SPARK-19827)

SparkR の動作の変更

移行ガイド: SparkR (R on Spark)

廃止

Python 2 のサポートが廃止 (SPARK-27884)
R < 3.4 のサポートが廃止 (SPARK-26014)

既知の問題

パターン文字 ‘D’ を使用して年の通日を解析すると、年フィールドがない場合は、間違った結果が返されます。これは、パターン文字列を使用して datetime 文字列を datetime 値に解析する to_timestamp などの SQL 関数で発生する可能性があります。 (SPARK-31939)
サブクエリの内部で結合/ウィンドウ/集計を実行すると、キーの値が-0.0 と0.0 である場合に、間違った結果が返されることがあります。 (SPARK-31958)
あいまいな自己結合エラーが原因で、予期しない動作によってウィンドウクエリが失敗することがあります。 (SPARK-31956)
dropDuplicates 演算子を含むストリーミングクエリは、Spark 2.x によって記述されたチェックポイントでは、再開できないことがあります。 (SPARK-31990)

メンテナンスの更新

Databricks Runtime 7.0 メンテナンス更新プログラムに関するページを参照してください。

システム環境

オペレーティングシステム: Ubuntu 18.04.4 LTS
Java: 1.8.0_252
Scala: 2.12.10
Python: 3.7.5
R: R バージョン 3.6.3 (2020-02-29)
Delta Lake 0.7.0

インストールされている Python ライブラリ

ライブラリ	Version	ライブラリ	Version	ライブラリ	Version
asn1crypto	1.3.0	backcall	0.1.0	boto3	1.12.0
botocore	1.15.0	certifi	2020.4.5	cffi	1.14.0
chardet	3.0.4	cryptography	2.8	cycler	0.10.0
Cython	0.29.15	decorator	4.4.1	docutils	0.15.2
entrypoints	0.3	idna	2.8	ipykernel	5.1.4
ipython	7.12.0	ipython-genutils	0.2.0	jedi	0.14.1
jmespath	0.9.4	joblib	0.14.1	jupyter-client	5.3.4
jupyter-core	4.6.1	kiwisolver	1.1.0	matplotlib	3.1.3
numpy	1.18.1	pandas	1.0.1	parso	0.5.2
patsy	0.5.1	pexpect	4.8.0	pickleshare	0.7.5
pip	20.0.2	prompt-toolkit	3.0.3	psycopg2	2.8.4
ptyprocess	0.6.0	pyarrow	0.15.1	pycparser	2.19
Pygments	2.5.2	PyGObject	3.26.1	pyOpenSSL	19.1.0
pyparsing	2.4.6	PySocks	1.7.1	python-apt	1.6.5+ubuntu0.3
python-dateutil	2.8.1	pytz	2019.3	pyzmq	18.1.1
requests	2.22.0	s3transfer	0.3.3	scikit-learn	0.22.1
scipy	1.4.1	seaborn	0.10.0	setuptools	45.2.0
6	1.14.0	ssh-import-id	5.7	statsmodels	0.11.0
tornado	6.0.3	traitlets	4.3.3	unattended-upgrades	0.1
urllib3	1.25.8	virtualenv	16.7.10	wcwidth	0.1.8
wheel	0.34.2

インストールされている R ライブラリ

R ライブラリは、2020 年 4 月 22 日に Microsoft CRAN スナップショットからインストールされています。

ライブラリ	Version	ライブラリ	Version	ライブラリ	Version
askpass	1.1	assertthat	0.2.1	backports	1.1.6
base	3.6.3	base64enc	0.1-3	BH	1.72.0-3
bit	1.1-15.2	bit64	0.9-7	blob (blob)	1.2.1
boot	1.3-25	brew	1.0-6	broom	0.5.6
callr	3.4.3	キャレット	6.0-86	cellranger	1.1.0
chron	2.3-55	class	7.3-17	cli	2.0.2
clipr	0.7.0	cluster	2.1.0	codetools	0.2-16
colorspace	1.4-1	commonmark	1.7	compiler	3.6.3
config	0.3	covr	3.5.0	crayon	1.3.4
crosstalk	1.1.0.1	curl	4.3	data.table	1.12.8
datasets	3.6.3	DBI	1.1.0	dbplyr	1.4.3
desc	1.2.0	devtools	2.3.0	digest	0.6.25
dplyr	0.8.5	DT	0.13	ellipsis	0.3.0
evaluate	0.14	fansi	0.4.1	farver	2.0.3
fastmap	1.0.1	forcats	0.5.0	foreach	1.5.0
foreign	0.8-76	forge	0.2.0	fs	1.4.1
generics	0.0.2	ggplot2	3.3.0	gh	1.1.0
git2r	0.26.1	glmnet	3.0-2	globals	0.12.5
glue	1.4.0	gower	0.2.1	graphics	3.6.3
grDevices	3.6.3	grid	3.6.3	gridExtra	2.3
gsubfn	0.7	gtable	0.3.0	haven	2.2.0
highr	0.8	hms	0.5.3	htmltools	0.4.0
htmlwidgets	1.5.1	httpuv	1.5.2	httr	1.4.1
hwriter	1.3.2	hwriterPlus	1.0-3	ini	0.3.1
ipred	0.9-9	isoband	0.2.1	iterators	1.0.12
jsonlite	1.6.1	KernSmooth	2.23-17	knitr	1.28
labeling	0.3	later	1.0.0	lattice	0.20-41
lava	1.6.7	lazyeval	0.2.2	ライフサイクル	0.2.0
lubridate	1.7.8	magrittr	1.5	markdown	1.1
MASS	7.3-51.6	Matrix	1.2-18	memoise	1.1.0
methods	3.6.3	mgcv	1.8-31	mime	0.9
ModelMetrics	1.2.2.2	modelr	0.1.6	munsell	0.5.0
nlme	3.1-147	nnet	7.3-14	numDeriv	2016.8-1.1
openssl	1.4.1	parallel	3.6.3	pillar	1.4.3
pkgbuild	1.0.6	pkgconfig	2.0.3	pkgload	1.0.2
plogr	0.2.0	plyr	1.8.6	praise	1.0.0
prettyunits	1.1.1	pROC	1.16.2	processx	3.4.2
prodlim	2019.11.13	progress	1.2.2	promises	1.1.0
proto	1.0.0	ps	1.3.2	purrr	0.3.4
r2d3	0.2.3	R6	2.4.1	randomForest	4.6-14
rappdirs	0.3.1	rcmdcheck	1.3.3	RColorBrewer	1.1-2
Rcpp	1.0.4.6	readr	1.3.1	readxl	1.3.1
recipes	0.1.10	rematch	1.0.1	rematch2	2.1.1
remotes	2.1.1	reprex	0.3.0	reshape2	1.4.4
rex	1.2.0	rjson	0.2.20	rlang	0.4.5
rmarkdown	2.1	RODBC	1.3-16	roxygen2	7.1.0
rpart	4.1-15	rprojroot	1.3-2	Rserve	1.8-6
RSQLite	2.2.0	rstudioapi	0.11	rversions	2.0.1
rvest	0.3.5	scales	1.1.0	selectr	0.4-2
sessioninfo	1.1.1	shape	1.4.4	shiny	1.4.0.2
sourcetools	0.1.7	sparklyr	1.2.0	SparkR	3.0.0
spatial	7.3-11	splines	3.6.3	sqldf	0.4-11
SQUAREM	2020.2	stats	3.6.3	stats4	3.6.3
stringi	1.4.6	stringr	1.4.0	survival	3.1-12
sys	3.3	tcltk	3.6.3	TeachingDemos	2.10
testthat	2.3.2	tibble	3.0.1	tidyr	1.0.2
tidyselect	1.0.0	tidyverse	1.3.0	timeDate	3043.102
tinytex	0.22	tools	3.6.3	usethis	1.6.0
utf8	1.1.4	utils	3.6.3	vctrs	0.2.4
viridisLite	0.3.0	whisker	0.4	withr	2.2.0
xfun	0.13	xml2	1.3.1	xopen	1.0.0
xtable	1.8-4	yaml	2.2.1

インストールされている Java ライブラリと Scala ライブラリ (Scala 2.12 クラスターバージョン)

グループ ID	成果物 ID	Version
antlr	antlr	2.7.7
com.amazonaws	amazon-kinesis-client	1.12.0
com.amazonaws	aws-java-sdk-autoscaling	1.11.655
com.amazonaws	aws-java-sdk-cloudformation	1.11.655
com.amazonaws	aws-java-sdk-cloudfront	1.11.655
com.amazonaws	aws-java-sdk-cloudhsm	1.11.655
com.amazonaws	aws-java-sdk-cloudsearch	1.11.655
com.amazonaws	aws-java-sdk-cloudtrail	1.11.655
com.amazonaws	aws-java-sdk-cloudwatch	1.11.655
com.amazonaws	aws-java-sdk-cloudwatchmetrics	1.11.655
com.amazonaws	aws-java-sdk-codedeploy	1.11.655
com.amazonaws	aws-java-sdk-cognitoidentity	1.11.655
com.amazonaws	aws-java-sdk-cognitosync	1.11.655
com.amazonaws	aws-java-sdk-config	1.11.655
com.amazonaws	aws-java-sdk-core	1.11.655
com.amazonaws	aws-java-sdk-datapipeline	1.11.655
com.amazonaws	aws-java-sdk-directconnect	1.11.655
com.amazonaws	aws-java-sdk-directory	1.11.655
com.amazonaws	aws-java-sdk-dynamodb	1.11.655
com.amazonaws	aws-java-sdk-ec2	1.11.655
com.amazonaws	aws-java-sdk-ecs	1.11.655
com.amazonaws	aws-java-sdk-efs	1.11.655
com.amazonaws	aws-java-sdk-elasticache	1.11.655
com.amazonaws	aws-java-sdk-elasticbeanstalk	1.11.655
com.amazonaws	aws-java-sdk-elasticloadbalancing	1.11.655
com.amazonaws	aws-java-sdk-elastictranscoder	1.11.655
com.amazonaws	aws-java-sdk-emr	1.11.655
com.amazonaws	aws-java-sdk-glacier	1.11.655
com.amazonaws	aws-java-sdk-iam	1.11.655
com.amazonaws	aws-java-sdk-importexport	1.11.655
com.amazonaws	aws-java-sdk-kinesis	1.11.655
com.amazonaws	aws-java-sdk-kms	1.11.655
com.amazonaws	aws-java-sdk-lambda	1.11.655
com.amazonaws	aws-java-sdk-logs	1.11.655
com.amazonaws	aws-java-sdk-machinelearning	1.11.655
com.amazonaws	aws-java-sdk-opsworks	1.11.655
com.amazonaws	aws-java-sdk-rds	1.11.655
com.amazonaws	aws-java-sdk-redshift	1.11.655
com.amazonaws	aws-java-sdk-route53	1.11.655
com.amazonaws	aws-java-sdk-s3	1.11.655
com.amazonaws	aws-java-sdk-ses	1.11.655
com.amazonaws	aws-java-sdk-simpledb	1.11.655
com.amazonaws	aws-java-sdk-simpleworkflow	1.11.655
com.amazonaws	aws-java-sdk-sns	1.11.655
com.amazonaws	aws-java-sdk-sqs	1.11.655
com.amazonaws	aws-java-sdk-ssm	1.11.655
com.amazonaws	aws-java-sdk-storagegateway	1.11.655
com.amazonaws	aws-java-sdk-sts	1.11.655
com.amazonaws	aws-java-sdk-support	1.11.655
com.amazonaws	aws-java-sdk-swf-libraries	1.11.22
com.amazonaws	aws-java-sdk-workspaces	1.11.655
com.amazonaws	jmespath-java	1.11.655
com.chuusai	shapeless_2.12	2.3.3
com.clearspring.analytics	ストリーム (stream)	2.9.6
com.databricks	Rserve	1.8-3
com.databricks	jets3t	0.7.1-0
com.databricks.scalapb	compilerplugin_2.12	0.4.15-10
com.databricks.scalapb	scalapb-runtime_2.12	0.4.15-10
com.esotericsoftware	kryo-shaded	4.0.2
com.esotericsoftware	minlog	1.3.0
com.fasterxml	classmate	1.3.4
com.fasterxml.jackson.core	jackson-annotations	2.10.0
com.fasterxml.jackson.core	jackson-core	2.10.0
com.fasterxml.jackson.core	jackson-databind	2.10.0
com.fasterxml.jackson.dataformat	jackson-dataformat-cbor	2.10.0
com.fasterxml.jackson.datatype	jackson-datatype-joda	2.10.0
com.fasterxml.jackson.module	jackson-module-paranamer	2.10.0
com.fasterxml.jackson.module	jackson-module-scala_2.12	2.10.0
com.github.ben-manes.caffeine	caffeine	2.3.4
com.github.fommil	jniloader	1.1
com.github.fommil.netlib	core	1.1.2
com.github.fommil.netlib	native_ref-java	1.1
com.github.fommil.netlib	native_ref-java-natives	1.1
com.github.fommil.netlib	native_system-java	1.1
com.github.fommil.netlib	native_system-java-natives	1.1
com.github.fommil.netlib	netlib-native_ref-linux-x86_64-natives	1.1
com.github.fommil.netlib	netlib-native_system-linux-x86_64-natives	1.1
com.github.joshelser	dropwizard-metrics-hadoop-metrics2-reporter	0.1.2
com.github.luben	zstd-jni	1.4.4-3
com.github.wendykierp	JTransforms	3.1
com.google.code.findbugs	jsr305	3.0.0
com.google.code.gson	gson	2.2.4
com.google.flatbuffers	flatbuffers-java	1.9.0
com.google.guava	guava	15.0
com.google.protobuf	protobuf-java	2.6.1
com.h2database	h2	1.4.195
com.helger	profiler	1.1.1
com.jcraft	jsch	0.1.50
com.jolbox	bonecp	0.8.0.RELEASE
com.microsoft.azure	azure-data-lake-store-sdk	2.2.8
com.microsoft.sqlserver	mssql-jdbc	8.2.1.jre8
com.ning	compress-lzf	1.0.3
com.sun.mail	javax.mail	1.5.2
com.tdunning	json	1.8
com.thoughtworks.paranamer	paranamer	2.8
com.trueaccord.lenses	lenses_2.12	0.4.12
com.twitter	chill-java	0.9.5
com.twitter	chill_2.12	0.9.5
com.twitter	util-app_2.12	7.1.0
com.twitter	util-core_2.12	7.1.0
com.twitter	util-function_2.12	7.1.0
com.twitter	util-jvm_2.12	7.1.0
com.twitter	util-lint_2.12	7.1.0
com.twitter	util-registry_2.12	7.1.0
com.twitter	util-stats_2.12	7.1.0
com.typesafe	config	1.2.1
com.typesafe.scala-logging	scala-logging_2.12	3.7.2
com.univocity	univocity-parsers	2.8.3
com.zaxxer	HikariCP	3.1.0
commons-beanutils	commons-beanutils	1.9.4
commons-cli	commons-cli	1.2
commons-codec	commons-codec	1.10
commons-collections	commons-collections	3.2.2
commons-configuration	commons-configuration	1.6
commons-dbcp	commons-dbcp	1.4
commons-digester	commons-digester	1.8
commons-fileupload	commons-fileupload	1.3.3
commons-httpclient	commons-httpclient	3.1
commons-io	commons-io	2.4
commons-lang	commons-lang	2.6
commons-logging	commons-logging	1.1.3
commons-net	commons-net	3.1
commons-pool	commons-pool	1.5.4
info.ganglia.gmetric4j	gmetric4j	1.0.10
io.airlift	aircompressor	0.10
io.dropwizard.metrics	metrics-core	4.1.1
io.dropwizard.metrics	metrics-graphite	4.1.1
io.dropwizard.metrics	metrics-healthchecks	4.1.1
io.dropwizard.metrics	metrics-jetty9	4.1.1
io.dropwizard.metrics	metrics-jmx	4.1.1
io.dropwizard.metrics	metrics-json	4.1.1
io.dropwizard.metrics	metrics-jvm	4.1.1
io.dropwizard.metrics	metrics-servlets	4.1.1
io.netty	netty-all	4.1.47.Final
jakarta.annotation	jakarta.annotation-api	1.3.5
jakarta.validation	jakarta.validation-api	2.0.2
jakarta.ws.rs	jakarta.ws.rs-api	2.1.6
javax.activation	activation	1.1.1
javax.el	javax.el-api	2.2.4
javax.jdo	jdo-api	3.0.1
javax.servlet	javax.servlet-api	3.1.0
javax.servlet.jsp	jsp-api	2.1
javax.transaction	jta	1.1
javax.transaction	transaction-api	1.1
javax.xml.bind	jaxb-api	2.2.2
javax.xml.stream	stax-api	1.0-2
javolution	javolution	5.5.1
jline	jline	2.14.6
joda-time	joda-time	2.10.5
log4j	apache-log4j-extras	1.2.17
log4j	log4j	1.2.17
net.razorvine	pyrolite	4.30
net.sf.jpam	jpam	1.1
net.sf.opencsv	opencsv	2.3
net.sf.supercsv	super-csv	2.2.0
net.snowflake	snowflake-ingest-sdk	0.9.6
net.snowflake	snowflake-jdbc	3.12.0
net.snowflake	spark-snowflake_2.12	2.5.9-spark_2.4
net.sourceforge.f2j	arpack_combined_all	0.1
org.acplt.remotetea	remotetea-oncrpc	1.1.2
org.antlr	ST4	4.0.4
org.antlr	antlr-runtime	3.5.2
org.antlr	antlr4-runtime	4.7.1
org.antlr	stringtemplate	3.2.1
org.apache.ant	ant	1.9.2
org.apache.ant	ant-jsch	1.9.2
org.apache.ant	ant-launcher	1.9.2
org.apache.arrow	arrow-format	0.15.1
org.apache.arrow	arrow-memory	0.15.1
org.apache.arrow	arrow-vector	0.15.1
org.apache.avro	avro	1.8.2
org.apache.avro	avro-ipc	1.8.2
org.apache.avro	avro-mapred-hadoop2	1.8.2
org.apache.commons	commons-compress	1.8.1
org.apache.commons	commons-crypto	1.0.0
org.apache.commons	commons-lang3	3.9
org.apache.commons	commons-math3	3.4.1
org.apache.commons	commons-text	1.6
org.apache.curator	curator-client	2.7.1
org.apache.curator	curator-framework	2.7.1
org.apache.curator	curator-recipes	2.7.1
org.apache.derby	derby	10.12.1.1
org.apache.directory.api	api-asn1-api	1.0.0-M20
org.apache.directory.api	api-util	1.0.0-M20
org.apache.directory.server	apacheds-i18n	2.0.0-M15
org.apache.directory.server	apacheds-kerberos-codec	2.0.0-M15
org.apache.hadoop	hadoop-annotations	2.7.4
org.apache.hadoop	hadoop-auth	2.7.4
org.apache.hadoop	hadoop-client	2.7.4
org.apache.hadoop	hadoop-common	2.7.4
org.apache.hadoop	hadoop-hdfs	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-app	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-common	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-core	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-jobclient	2.7.4
org.apache.hadoop	hadoop-mapreduce-client-shuffle	2.7.4
org.apache.hadoop	hadoop-yarn-api	2.7.4
org.apache.hadoop	hadoop-yarn-client	2.7.4
org.apache.hadoop	hadoop-yarn-common	2.7.4
org.apache.hadoop	hadoop-yarn-server-common	2.7.4
org.apache.hive	hive-beeline	2.3.7
org.apache.hive	hive-cli	2.3.7
org.apache.hive	hive-common	2.3.7
org.apache.hive	hive-exec-core	2.3.7
org.apache.hive	hive-jdbc	2.3.7
org.apache.hive	hive-llap-client	2.3.7
org.apache.hive	hive-llap-common	2.3.7
org.apache.hive	hive-metastore	2.3.7
org.apache.hive	hive-serde	2.3.7
org.apache.hive	hive-shims	2.3.7
org.apache.hive	hive-storage-api	2.7.1
org.apache.hive	hive-vector-code-gen	2.3.7
org.apache.hive.shims	hive-shims-0.23	2.3.7
org.apache.hive.shims	hive-shims-common	2.3.7
org.apache.hive.shims	hive-shims-scheduler	2.3.7
org.apache.htrace	htrace-core	3.1.0-incubating
org.apache.httpcomponents	httpclient	4.5.6
org.apache.httpcomponents	httpcore	4.4.12
org.apache.ivy	ivy	2.4.0
org.apache.orc	orc-core	1.5.10
org.apache.orc	orc-mapreduce	1.5.10
org.apache.orc	orc-shims	1.5.10
org.apache.parquet	parquet-column	1.10.1.2-databricks4
org.apache.parquet	parquet-common	1.10.1.2-databricks4
org.apache.parquet	parquet-encoding	1.10.1.2-databricks4
org.apache.parquet	parquet-format	2.4.0
org.apache.parquet	parquet-hadoop	1.10.1.2-databricks4
org.apache.parquet	parquet-jackson	1.10.1.2-databricks4
org.apache.thrift	libfb303	0.9.3
org.apache.thrift	libthrift	0.12.0
org.apache.velocity	velocity	1.5
org.apache.xbean	xbean-asm7-shaded	4.15
org.apache.yetus	audience-annotations	0.5.0
org.apache.zookeeper	zookeeper	3.4.14
org.codehaus.jackson	jackson-core-asl	1.9.13
org.codehaus.jackson	jackson-jaxrs	1.9.13
org.codehaus.jackson	jackson-mapper-asl	1.9.13
org.codehaus.jackson	jackson-xc	1.9.13
org.codehaus.janino	commons-compiler	3.0.16
org.codehaus.janino	janino	3.0.16
org.datanucleus	datanucleus-api-jdo	4.2.4
org.datanucleus	datanucleus-core	4.1.17
org.datanucleus	datanucleus-rdbms	4.1.19
org.datanucleus	javax.jdo	3.2.0-m3
org.eclipse.jetty	jetty-client	9.4.18.v20190429
org.eclipse.jetty	jetty-continuation	9.4.18.v20190429
org.eclipse.jetty	jetty-http	9.4.18.v20190429
org.eclipse.jetty	jetty-io	9.4.18.v20190429
org.eclipse.jetty	jetty-jndi	9.4.18.v20190429
org.eclipse.jetty	jetty-plus	9.4.18.v20190429
org.eclipse.jetty	jetty-proxy	9.4.18.v20190429
org.eclipse.jetty	jetty-security	9.4.18.v20190429
org.eclipse.jetty	jetty-server	9.4.18.v20190429
org.eclipse.jetty	jetty-servlet	9.4.18.v20190429
org.eclipse.jetty	jetty-servlets	9.4.18.v20190429
org.eclipse.jetty	jetty-util	9.4.18.v20190429
org.eclipse.jetty	jetty-webapp	9.4.18.v20190429
org.eclipse.jetty	jetty-xml	9.4.18.v20190429
org.fusesource.leveldbjni	leveldbjni-all	1.8
org.glassfish.hk2	hk2-api	2.6.1
org.glassfish.hk2	hk2-locator	2.6.1
org.glassfish.hk2	hk2-utils	2.6.1
org.glassfish.hk2	osgi-resource-locator	1.0.3
org.glassfish.hk2.external	aopalliance-repackaged	2.6.1
org.glassfish.hk2.external	jakarta.inject	2.6.1
org.glassfish.jersey.containers	jersey-container-servlet	2.30
org.glassfish.jersey.containers	jersey-container-servlet-core	2.30
org.glassfish.jersey.core	jersey-client	2.30
org.glassfish.jersey.core	jersey-common	2.30
org.glassfish.jersey.core	jersey-server	2.30
org.glassfish.jersey.inject	jersey-hk2	2.30
org.glassfish.jersey.media	jersey-media-jaxb	2.30
org.hibernate.validator	hibernate-validator	6.1.0.Final
org.javassist	javassist	3.25.0-GA
org.jboss.logging	jboss-logging	3.3.2.Final
org.jdbi	jdbi	2.63.1
org.joda	joda-convert	1.7
org.jodd	jodd-core	3.5.2
org.json4s	json4s-ast_2.12	3.6.6
org.json4s	json4s-core_2.12	3.6.6
org.json4s	json4s-jackson_2.12	3.6.6
org.json4s	json4s-scalap_2.12	3.6.6
org.lz4	lz4-java	1.7.1
org.mariadb.jdbc	mariadb-java-client	2.1.2
org.objenesis	objenesis	2.5.1
org.postgresql	postgresql	42.1.4
org.roaringbitmap	RoaringBitmap	0.7.45
org.roaringbitmap	shims	0.7.45
org.rocksdb	rocksdbjni	6.2.2
org.rosuda.REngine	REngine	2.1.0
org.scala-lang	scala-compiler_2.12	2.12.10
org.scala-lang	scala-library_2.12	2.12.10
org.scala-lang	scala-reflect_2.12	2.12.10
org.scala-lang.modules	scala-collection-compat_2.12	2.1.1
org.scala-lang.modules	scala-parser-combinators_2.12	1.1.2
org.scala-lang.modules	scala-xml_2.12	1.2.0
org.scala-sbt	test-interface	1.0
org.scalacheck	scalacheck_2.12	1.14.2
org.scalactic	scalactic_2.12	3.0.8
org.scalanlp	breeze-macros_2.12	1.0
org.scalanlp	breeze_2.12	1.0
org.scalatest	scalatest_2.12	3.0.8
org.slf4j	jcl-over-slf4j	1.7.30
org.slf4j	jul-to-slf4j	1.7.30
org.slf4j	slf4j-api	1.7.30
org.slf4j	slf4j-log4j12	1.7.30
org.spark-project.spark	未使用	1.0.0
org.springframework	spring-core	4.1.4.RELEASE
org.springframework	spring-test	4.1.4.RELEASE
org.threeten	threeten-extra	1.5.0
org.tukaani	xz	1.5
org.typelevel	algebra_2.12	2.0.0-M2
org.typelevel	cats-kernel_2.12	2.0.0-M4
org.typelevel	machinist_2.12	0.6.8
org.typelevel	macro-compat_2.12	1.1.1
org.typelevel	spire-macros_2.12	0.17.0-M1
org.typelevel	spire-platform_2.12	0.17.0-M1
org.typelevel	spire-util_2.12	0.17.0-M1
org.typelevel	spire_2.12	0.17.0-M1
org.xerial	sqlite-jdbc	3.8.11.2
org.xerial.snappy	snappy-java	1.1.7.5
org.yaml	snakeyaml	1.24
oro	oro	2.0.8
pl.edu.icm	JLargeArrays	1.5
software.amazon.ion	ion-java	1.0.2
stax	stax-api	1.0.1
xmlenc	xmlenc	0.52

次の方法で共有

Databricks Runtime 7.0 (EoS)

新機能

機能強化

ライブラリの主な変更点

Python パッケージ

R パッケージ

Java ライブラリと Scala ライブラリ

動作の変更

Spark の動作の変更

その他の動作の変更

非推奨と削除

Apache Spark

このセクションの内容は次のとおりです。

Core、Spark SQL、構造化ストリーミング

ハイライト

パフォーマンスの向上

拡張性の機能強化

コネクタの機能強化

機能強化

SQL の互換性の機能強化

監視とデバッグの機能拡張

PySpark の機能強化

ドキュメントとテストカバレッジの機能強化

その他の注目すべき変更点

Spark core、Spark SQL、構造化ストリーミングの動作の変更

MLlib

ハイライト

MLlib の動作の変更

SparkR

SparkR の動作の変更

廃止

既知の問題

メンテナンスの更新

システム環境

インストールされている Python ライブラリ

インストールされている R ライブラリ

インストールされている Java ライブラリと Scala ライブラリ (Scala 2.12 クラスターバージョン)

フィードバック

その他のリソース

次の方法で共有

Databricks Runtime 7.0 (EoS)

新機能

機能強化

ライブラリの主な変更点

Python パッケージ

R パッケージ

Java ライブラリと Scala ライブラリ

動作の変更

Spark の動作の変更

その他の動作の変更

非推奨と削除

Apache Spark

このセクションの内容は次のとおりです。

Core、Spark SQL、構造化ストリーミング

ハイライト

パフォーマンスの向上

拡張性の機能強化

コネクタの機能強化

機能強化

SQL の互換性の機能強化

監視とデバッグの機能拡張

PySpark の機能強化

ドキュメントとテスト カバレッジの機能強化

その他の注目すべき変更点

Spark core、Spark SQL、構造化ストリーミングの動作の変更

MLlib

ハイライト

MLlib の動作の変更

SparkR

SparkR の動作の変更

廃止

既知の問題

メンテナンスの更新

システム環境

インストールされている Python ライブラリ

インストールされている R ライブラリ

インストールされている Java ライブラリと Scala ライブラリ (Scala 2.12 クラスター バージョン)

フィードバック

その他のリソース

ドキュメントとテストカバレッジの機能強化

インストールされている Java ライブラリと Scala ライブラリ (Scala 2.12 クラスターバージョン)