Fabric Runtime 1.2 (GA)

[アーティクル]
10/14/2024

Microsoft Fabric ランタイムは、Apache Spark に基づく Azure 統合プラットフォームであり、データエンジニアリングとデータサイエンスのエクスペリエンスの実行と管理を可能にします。このドキュメントでは、Runtime 1.2 のコンポーネントとバージョンについて説明します。

Runtime 1.2 の主なコンポーネントは次のとおりです。

Apache Spark 3.4.1
オペレーティングシステム: Mariner 2.0
Java: 11
Scala: 2.12.17
Python: 3.10
Delta Lake: 2.4.0
R: 4.2.2

ヒント

運用環境のワークロードには常に最新の GA ランタイムバージョンを使用します。現在は Runtime 1.3 です。

ランタイムバージョンを選択する場所を示すスクリーンショット。

Microsoft Fabric Runtime 1.2 には、完全な Anaconda インストールや Java/Scala、Python、R でよく使用されるライブラリなど、デフォルトレベルパッケージのコレクションが付属しています。これらのライブラリは、Microsoft Fabric プラットフォームでノートブックまたはジョブを使用する場合に自動的に含まれます。ライブラリの完全な一覧については、ドキュメントを参照してください。 Microsoft Fabric は、Runtime 1.2 のメンテナンス更新プログラムを定期的にロールアウトし、バグ修正、パフォーマンスの強化、セキュリティパッチを提供します。最新の状態を維持することで、データ処理タスクに対する最適なパフォーマンスと信頼性が確保されます。

Spark リリース 3.4.1 の新機能と機能強化

Apache Spark 3.4.0 は、3.x 系列での 5 回目のリリースになります。オープンソースコミュニティによって推進されるこのリリースでは、2,600 以上の Jira チケットが解決されました。 Spark Connect 用の Python クライアントが導入され、非同期の進行状況追跡と Python のステートフル処理によって構造化ストリーミングが強化されています。 NumPy 入力のサポートによって Pandas API の対象範囲が広がり、ANSI コンプライアンスと新規組み込み関数によって従来のデータウェアハウスからの移行が簡単になっています。また、メモリプロファイリングにより、開発の生産性とデバッグ性が向上しています。さらに、Runtime 1.2 は、安定性の修正に重点を置いたメンテナンスリリースである Apache Spark 3.4.1 に基づいています。

主な注目点

Apache Spark の特定のバージョンに関するリリースノートの完全なバージョンについては、Spark 3.4.0 と Spark 3.4.1 をご覧ください。

新規カスタムクエリ最適化

Spark での同時書き込みのサポート

SQL INSERT INTO クエリを使って同じテーブルへの並列データ挿入を実行したときに、404 エラーと"Operation failed: The specified path doesn't exist" (操作失敗: 指定したパスは存在しません) というメッセージが発生するのは、よくある問題です。このエラーにより、データが失われる可能性があります。ファイル出力コミッターアルゴリズムという新機能により、この問題は解決し、お客様は並列データ挿入をシームレスに実行できます。

この機能にアクセスするには、spark.sql.enable.concurrentWrites 機能フラグを有効にします。Runtime 1.2 (Spark 3.4) 以降では、このフラグはデフォルトで有効になります。この機能は他の Spark 3 バージョンでも使用できますが、デフォルトで有効にはなりません。この機能では、各同時実行ジョブが同じテーブルの異なるパーティションのデータを動的に上書きする INSERT OVERWRITE クエリの並列実行はサポートされません。このために Spark で用意されている代替機能は、spark.sql.sources.partitionOverwriteMode の設定を dynamic に構成することでアクティブにできます。

失敗したジョブからのファイルをスキップするスマート読み取り

現在の Spark コミッターシステムでは、テーブルへの挿入ジョブが失敗しても、一部のタスクが成功すると、成功したタスクによって生成されたファイルが、失敗したジョブのファイルと共存します。この共存により、成功したジョブと失敗したジョブに属するファイルを区別することが困難になるため、ユーザーが混乱する可能性があります。さらに、あるジョブがテーブルからの読み取りを行っている間に、別のジョブが同じテーブルに同時にデータを挿入すると、読み取りジョブがコミットされていないデータにアクセスする可能性があります。書き込みジョブが失敗した場合、読み取りジョブが正しくないデータを処理する可能性があります。

この問題に対処する新機能は、spark.sql.auto.cleanup.enabled フラグによって制御されます。有効にすると、Spark は、spark.read を実行するとき、またはテーブルからクエリを選択するときに、コミットされていないファイルの読み取りを自動的にスキップします。この機能を有効にする前に書き込まれたファイルは、引き続き通常どおり読み取られます。

見た目には次のような点が変わります。

すべてのファイルのファイル名に、tid-{jobID} 識別子が含まれるようになります。
ジョブの正常完了時に出力場所に通常作成される _success マーカーの代わりに、新規 _committed_{jobID} マーカーが生成されます。このマーカーは、成功したジョブの ID と特定のファイル名を関連付けます。
ストレージを管理し、コミットされていないファイルをクリーンアップするためにユーザーが定期的に実行できる、新規 SQL コマンドが導入されました。このコマンドの構文は次のとおりです。
- 特定のディレクトリをクリーンアップする: CLEANUP ('/path/to/dir') [RETAIN number HOURS];
- 特定のテーブルをクリーンアップする: CLEANUP [db_name.]table_name [RETAIN number HOURS]; この構文で、path/to/dir はクリーンアップが必要な場所の URI を表し、number は保持期間を表す double 型の値です。デフォルトの保持期間は 7 日間に設定されます。
spark.sql.deleteUncommittedFilesWhileListing という新規構成オプションが導入されました。このオプションはデフォルトで false に設定されます。このオプションを有効にすると、コミットされていないファイルは読み取りの間に自動的に削除されますが、このシナリオでは読み取り操作が遅くなる可能性があります。このフラグを有効にするのではなく、クラスターがアイドル状態のときにクリーンアップコマンドを手動で実行することをお勧めします。

Runtime 1.1 から Runtime 1.2 への移行ガイド

Apache Spark 3.3 搭載の Runtime 1.1 を Apache Spark 3.4 搭載の Runtime 1.2 に移行するときは、公式の移行ガイドを確認してください。

Delta Lake 2.4 の新機能と機能強化

Delta Lake は、データレイクの上にLakehouse アーキテクチャを構築できるようにするオープンソースプロジェクトです。 Delta Lake は、ACID トランザクションとスケーラブルなメタデータ処理を提供し、既存のデータレイク上のストリーミングとバッチデータ処理を統合します。

具体的には、Delta Lake は次の機能を提供します。

Spark での ACID トランザクション: Serializable 分離レベルでは、リーダーが不整合なデータを表示しないようにします。
スケーラブルなメタデータ処理: Spark の分散処理能力を使って、ペタバイト規模のテーブルと数十億のファイルのすべてのメタデータを簡単に処理します。
ストリーミングとバッチの統合: Delta Lake 内のテーブルは、バッチテーブルであり、ストリーミングのソースとシンクです。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは、すべてすぐに機能します。
スキーマの適用: 取り込み中に無効なレコードが挿入されないように、スキーマのバリエーションを自動的に処理します。
タイムトラベル: データのバージョン管理により、ロールバック、完全な履歴監査証跡、および再現可能な機械学習の実験が可能になります。
アップサートと削除: マージ、更新、削除操作をサポートし、変更データキャプチャ、ゆっくり変化するディメンション (SCD) の操作、ストリーミングアップサートなどの複雑なユースケースを可能にします。

Delta Lake 2.4 のリリースノートの完全なバージョンをご覧ください。

Java、Scala、Python ライブラリのデフォルトレベルパッケージ

Java、Scala、Python、およびそれぞれのバージョンのすべてのデフォルトのレベルパッケージの一覧については、「リリースノート」を参照してください。

Fabric の Apache Spark Runtime - 概要、バージョン管理、複数の Runtime のサポート、Delta Lake プロトコルのアップグレードについて読む

次の方法で共有

Fabric Runtime 1.2 (GA)

Spark リリース 3.4.1 の新機能と機能強化

主な注目点

新規カスタムクエリ最適化

Spark での同時書き込みのサポート

失敗したジョブからのファイルをスキップするスマート読み取り

Runtime 1.1 から Runtime 1.2 への移行ガイド

Delta Lake 2.4 の新機能と機能強化

Java、Scala、Python ライブラリのデフォルトレベルパッケージ

フィードバック

その他のリソース

次の方法で共有

Fabric Runtime 1.2 (GA)

Spark リリース 3.4.1 の新機能と機能強化

主な注目点

新規カスタム クエリ最適化

Spark での同時書き込みのサポート

失敗したジョブからのファイルをスキップするスマート読み取り

Runtime 1.1 から Runtime 1.2 への移行ガイド

Delta Lake 2.4 の新機能と機能強化

Java、Scala、Python ライブラリのデフォルトレベル パッケージ

関連するコンテンツ

フィードバック

その他のリソース

新規カスタムクエリ最適化

Java、Scala、Python ライブラリのデフォルトレベルパッケージ