Microsoft Fabric での Synapse Data Engineering の新機能と計画

重要

リリース計画で説明されている機能は、まだリリースされていない場合があります。 提供タイムラインおよび予定されている機能は、変更される可能性、またはリリースされない可能性があります。 詳細については、「Microsoft ポリシー」をご覧ください。

Synapse Data Engineering を使用すると、データ エンジニアは Spark を使用して大規模にデータを変換し、レイクハウス アーキテクチャを構築できます。

すべての組織データのためのレイクハウス: レイクハウスは、データ レイクとデータ ウェアハウスのベストを 1 つのエクスペリエンスで組み合わせたものになります。 これにより、ユーザーは、レイク内のオープン形式で組織データを取り込み、準備し、共有することができます。 後で Spark、T-SQL、Power BI などの複数のエンジンを介してアクセスできます。 データフローやパイプライン、外部データ ソースへのショートカット、データ製品共有機能など、さまざまなデータ統合オプションが提供されます。

パフォーマンスの高い Spark エンジンとランタイム: Synapse Data Engineering は、Spark、Delta、Python の最新バージョンを使用して最適化された Spark ランタイムを提供します。 すべてのエンジンの共通テーブル形式として Delta Lake を使用するため、データ移動なしで簡単にデータ共有とレポートを行うことができます。 ランタイムには Spark の最適化が付属し、構成なしでクエリのパフォーマンスが向上します。 また、Spark セッションを高速化して再利用するためのスターター プールと高コンカレンシー モードも提供されるため、時間とコストを節約できます。

Spark 管理者と構成: 適切なアクセス許可を持つワークスペース管理者は、Spark ワークロードのパフォーマンスとコストを最適化するためのカスタム プールを作成して構成できます。 作成者は、ライブラリのインストール、ランタイム バージョンの選択、ノートブックと Spark ジョブの Spark プロパティの設定を行う環境を構成できます。

開発者エクスペリエンス: 開発者は、ノートブック、Spark ジョブ、または任意の IDE を使用して、Fabric で Spark コードを作成して実行できます。 レイクハウス データへのネイティブ アクセス、他のユーザーとの共同作業、ライブラリのインストール、履歴の追跡、インライン監視の実行、Spark Advisor からの推奨事項の取得を行うことができます。 また、Data Wrangler を使用して、低コード UI でデータを簡単に準備することもできます。

プラットフォーム統合: ノートブック、Spark ジョブ、環境、レイクハウスを含むすべての Synapse Data Engineering 項目は、Fabric プラットフォーム (エンタープライズ情報管理機能、系列、秘密度ラベル、保証) に深く統合されています。

投資分野

機能 リリース予定のタイムライン
パイプラインの高コンカレンシー 2024 年第 3 四半期
Fabric のユーザー データ関数 2024 年第 3 四半期
Fabric の VSCode コア拡張機能 2024 年第 3 四半期
Fabric でのユーザー データ関数の VSCode サテライト拡張機能 2024 年第 3 四半期
Web 用 VS Code - デバッグのサポート 2024 年第 3 四半期
レイクハウスでテーブルとフォルダーを並べ替え、フィルター処理する機能 2024 年第 3 四半期
レイクハウスのデータ セキュリティ Q4 2024
パブリック監視 API Q4 2024
レイクハウスの名前空間でのスキーマのサポートとワークスペース 出荷済み (2024 年第 3 四半期)
Fabric データ ウェアハウス用 Spark コネクタ 出荷済み (2024 年第 2 四半期)
Spark ネイティブ実行エンジン 出荷済み (2024 年第 2 四半期)
GraphQL 用 Microsoft Fabric API 出荷済み (2024 年第 2 四半期)
環境の作成とアタッチ 出荷済み (2024 年第 2 四半期)
ノートブック ジョブのキュー 出荷済み (2024 年第 2 四半期)
Fabric Spark の Optimistic Job Admission 出荷済み (2024 年第 2 四半期)
Spark Autotune 出荷済み (2024 年第 1 四半期)

パイプラインでの高コンカレンシー

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: 一般提供

ノートブックのコンカレンシーが高いだけでなく、パイプラインでのコンカレンシーも高くなります。 この機能を使用すると、1 つのセッションのパイプラインで複数のノートブックを実行できます。

Fabric のユーザー データ関数

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: パブリック プレビュー

ユーザー データ関数は、Fabric Data Science および Data Engineering のワークフローにカスタムの特殊なビジネス ロジックを実装して再利用し、効率と柔軟性を高めるための強力なメカニズムを提供します。

Fabric 用の VSCode Core 拡張機能

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: パブリック プレビュー

Fabric 用の Core VSCode 拡張機能では、Fabric サービスの開発者向けの一般的なサポートが提供されます。

Fabric でのユーザー データ関数の VSCode Satellite 拡張機能

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: パブリック プレビュー

ユーザー データ関数用の VSCode Satellite 拡張機能は、Fabric のユーザー データ関数の開発者サポート (編集、ビルド、デバッグ、発行) を提供します。

Web 用の VS Code - デバッグのサポート

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: パブリック プレビュー

Web 用 Visual Studio Code は現在、プレビューで作成と実行のシナリオがサポートされています。 ノートブック用のこの拡張機能を使用してコードをデバッグする機能の一覧に追加します。

Lakehouse でテーブルとフォルダーを並べ替え、フィルター処理する機能

リリース予定のタイムライン: 2024 年第 3 四半期

リリースの種類: 一般提供

この機能を使用すると、お客様は、アルファベット順、作成日など、さまざまな方法で Lakehouse のテーブルとフォルダーを並べ替えたりフィルター処理したりできます。

Lakehouse のデータ セキュリティ

リリース予定のタイムライン: 2024 年第 4 四半期

リリースの種類: パブリック プレビュー

レイクハウスには、ファイル、フォルダー、テーブル (またはオブジェクト レベル) にセキュリティを適用する機能があります。 また、レイクハウス内のデータにアクセスできるユーザーと、ユーザーが持つアクセス許可のレベルを制御することもできます。 たとえば、ファイル、フォルダー、テーブルに対する読み取りアクセス許可を付与できます。 アクセス許可が適用されると、すべてのエンジンで自動的に同期されます。 つまり、アクセス許可は Spark、SQL、Power BI、および外部エンジン間で一貫しています。

パブリック監視 API

リリース予定のタイムライン: 2024 年第 4 四半期

リリースの種類: 一般提供

パブリック監視 API を使用すると、Spark ジョブの状態、ジョブの概要、対応するドライバー ログと Executor ログをプログラムで取得できます。

出荷済み機能

Lakehouse の名前空間でのスキーマのサポートとワークスペース

出荷済み (2024 年第 3 四半期)

リリースの種類: パブリック プレビュー

これにより、スキーマを使用してテーブルを整理したり、ワークスペースをまたいでデータをクエリしたりできます。

Fabric データ ウェアハウス用 Spark コネクタ

出荷済み (2024 年第 2 四半期)

リリースの種類: パブリック プレビュー

Fabric DW (データ ウェアハウス) 用 Spark コネクタを使用すると、Spark 開発者またはデータ サイエンティストは、シンプルな Spark API を使用して Fabric データ ウェアハウスのデータにアクセスして操作できます。これは、文字どおり 1 行のコードで動作します。 Fabric データ ウェアハウスから並列でデータをクエリできるので、データ ボリュームの増加に合わせてスケーリングし、テーブルまたはビューにアクセスする際にデータ ウェアハウス レベルで定義されたセキュリティ モデル (OLS/RLS/CLS) が適用されます。 この最初のリリースでは、データの読み取りのみがサポートされ、データの書き戻しのサポートは近日中に提供される予定です。

Spark ネイティブ実行エンジン

出荷済み (2024 年第 2 四半期)

リリースの種類: パブリック プレビュー

ネイティブ実行エンジンは、Microsoft Fabric での Apache Spark ジョブ実行の画期的な機能強化です。 このベクター化されたエンジンでは、Lakehouse インフラストラクチャで直接実行することで、Spark クエリのパフォーマンスと効率を最適化します。 エンジンのシームレスな統合は、コードの変更を必要とせず、ベンダーのロックインが回避されます。 Apache Spark API をサポートし、ランタイム 1.2 (Spark 3.4) と互換性があり、Parquet 形式と Delta 形式の両方で動作します。 OneLake 内のデータの場所に関係なく、またはショートカットを使用してデータにアクセスする場合でも、ネイティブ実行エンジンで効率とパフォーマンスが最大化されます。

GraphQL 用 Microsoft Fabric API

出荷済み (2024 年第 2 四半期)

リリースの種類: パブリック プレビュー

GraphQL 用 API を使用すると、Fabric データ エンジニア、科学者、データ ソリューション アーキテクトは、GraphQL の能力と柔軟性を活用して、Fabric データを簡単に公開および統合できるので、より応答性が高くパフォーマンスの高い機能豊富な分析アプリケーションを作成できます。

環境の作成とアタッチ

出荷済み (2024 年第 2 四半期)

リリースの種類: 一般提供

Spark エクスペリエンスをよりきめ細かくカスタマイズするには、環境を作成してノートブックと Spark ジョブにアタッチします。 環境では、ライブラリのインストール、新しいプールの構成、Spark プロパティの設定、ファイル システムへのスクリプトのアップロードを行うことができます。 これにより、ワークスペースの既定の設定に影響を与えることなく、Spark ワークロードの柔軟性と制御が向上します。 GA の一環として、API のサポートや CI/CD 統合など、環境に対してさまざまな改善を行っています。

ノートブック ジョブのキュー

出荷済み (2024 年第 2 四半期)

リリースの種類: 一般提供

この機能を使用すると、Spark の使用量が並列で実行できる最大のジョブ数に達した場合に、スケジュールされた Spark Notebook をキューに登録しておき、使用量が許可されている最大の並列ジョブ数を下回った後に実行することができます。

Fabric Spark のオプティミスティック ジョブ受付

出荷済み (2024 年第 2 四半期)

リリースの種類: 一般提供

オプティミスティック ジョブ受付では、ジョブをスケールダウンできるノードの最小数に応じて、ジョブで開始する必要がある最小数のコアのみが Fabric Spark によって予約されます。 これにより、最小要件を満たすのに十分なリソースがある場合に、より多くのジョブを受け付けることができます。 ジョブを後でスケールアップする必要がある場合、スケールアップ要求は、容量内の使用可能なコアに応じて承認または拒否されます。

Spark Autotune

出荷済み (2024 年第 1 四半期)

リリースの種類: パブリック プレビュー

Autotune では、機械学習を使用して、Spark ジョブのそれまでの実行を自動的に分析し、構成を調整してパフォーマンスを最適化します。 Spark によるデータのパーティション分割、結合、読み取り方法を構成します。 これにより、クエリのパフォーマンスが大幅に向上します。 この機能により、お客様のジョブの実行速度が 2 倍に向上しました。