Fabric Runtime 1.3 (パブリック プレビュー)

Fabric ランタイムは、Azure とのシームレスな統合を提供します。 Apache Spark を使用するデータ エンジニアリング プロジェクトとデータ サイエンス プロジェクトの両方に高度な環境を提供します。 この記事では、ビッグ データ計算用の最新のランタイムである Fabric ランタイム 1.3 の重要な機能とコンポーネントの概要について説明します。

Fabric ランタイム 1.3 には、データ プロセス能力を強化するために設計された次のコンポーネントとアップグレードが組み込まれています。

  • Apache Spark 3.5
  • オペレーティング システム: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Python: 3.11
  • Delta Lake: 3.1
  • R: 4.3.3

Note

Fabric ランタイム 1.3 は現在、パブリック プレビュー 段階にあります。 VSCode および Low Shuffle Merge との統合は、パブリック プレビュー リリースではサポートされていません。

次の手順に従って、ランタイム 1.3 をワークスペースに統合し、その新機能を使用します。

  1. Fabric ワークスペース内の [ワークスペース設定] タブに移動します。
  2. [データ エンジニアリング/サイエンス] に進み、[Spark の設定] を選択します。
  3. [環境] タブを選択します。
  4. [ランタイム バージョン] ドロップダウンで、1.3 [パブリック プレビュー] (Spark 3.5、Delta 3.1) を選択し、変更を保存します。 このアクションにより、ワークスペースのデフォルトのランタイムとして 1.3 が設定されます。

ランタイム バージョンを選択する場所を示すスクリーンショット。

これで、Fabric ランタイム 1.3 (Spark 3.5 および Delta Lake 3.1) で導入された最新の機能と機能強化の作業を開始できます。

ヒント

最新の情報、変更の詳細な一覧、および Fabric ランタイムの特定のリリース ノートについては、Spark ランタイムのリリースと更新を確認しサブスクライブしてください。

主な注目点

Apache Spark 3.5

Apache Spark 3.5.0 は、3.x シリーズの 6 番目のバージョンです。 このバージョンは、オープンソース コミュニティ内の広範なコラボレーションの製品であり、Jira に記録されている 1,300 件を超える問題に対処しています。

このバージョンでは、構造化ストリーミングの互換性がアップグレードされています。 さらに、このリリースでは、PySpark と SQL 内の機能が広がります。 SQL 識別子句、SQL 関数呼び出しの名前付き引数、HyperLogLog の近似集計に SQL 関数を含めるなどの機能が追加されます。 その他の新機能には、Python ユーザー定義テーブル関数、DeepSpeed による分散トレーニングの簡略化、ウォーターマーク伝達や dropDuplicatesWithinWatermark 操作などの新規構造化ストリーミング機能も含まれます。

完全な一覧と詳細な変更については、https://spark.apache.org/releases/spark-release-3-5-0.html をチェックしてください。

Delta Spark

Delta Lake 3.1 は、Delta Lake を複数の形式で相互運用可能にし、操作しやすく、パフォーマンスを高めるという共同コミットメントを示しています。 Delta Spark 3.1.0 は、Apache Spark™ 3.5 上に構築されています。 Delta Spark Maven アーティファクトの名前が delta-core から delta-spark に変更されました。

完全な一覧と詳細な変更については、https://docs.delta.io/3.1.0/index.html をチェックしてください。

Note

アイデア投稿プラットフォームで Fabric ランタイムに関するフィードバックを共有します。 参照しているバージョンとリリース ステージを必ずメンションしてください。 私たちはコミュニティのフィードバックを大切にし、投票に基づいて改善に優先度付けして、ユーザーのニーズを確実に満たします。