レイクハウスと Delta Lake テーブル

Microsoft Fabric レイクハウスは、構造化データと非構造化データを 1 つの場所で保存、管理、分析するためのデータ アーキテクチャ プラットフォームです。 Microsoft Fabric のすべてのコンピューティング エンジンにわたってシームレスなデータ アクセスを実現するために、統合テーブル形式として Delta Lake が選択されています。

テーブルへの読み込みや「Fabric レイクハウスへデータを取り込むための選択肢」で説明されている方法などの機能を使用してレイクハウスにデータを保存すると、すべてのデータが Delta 形式で保存されます。

Delta Lake テーブル形式のより包括的な説明については、「次のステップ」セクションのリンクを参照してください。

ビッグ データ、Apache Spark、レガシ テーブルの形式

Microsoft Fabric Runtime for Apache Spark は、Azure Synapse Analytics Runtime for Apache Spark と同じ基盤を使用しますが、Microsoft Fabric サービス内のすべてのエンジンにわたってより効率的な動作を提供するための重要な違いを含んでいます。 Microsoft Fabric では、主要なパフォーマンス機能が既定でオンになっています。 高度な Apache Spark ユーザーは、特定のシナリオに合わせるために構成を以前の値に戻す場合があります。

Microsoft Fabric レイクハウスと Apache Spark エンジンは、マネージドとアンマネージドの両方のすべてのテーブルの種類をサポートしています。これには、ビューと通常の Delta Hive 以外のテーブル形式が含まれます。 PARQUET、CSV、AVRO、JSON、および任意の Apache Hive 互換ファイル形式を使用して定義されたテーブルは、想定どおりに動作します。

レイクハウス エクスプローラーのユーザー インターフェイス エクスペリエンスは、テーブルの種類によって異なります。 現在、レイクハウス エクスプローラーはテーブル オブジェクトのみをレンダリングします。

Azure Synapse Analytics との構成の違い

次の表に、Azure Synapse Analytics と Microsoft Fabric Runtime for Apache Spark の構成の違いを示します。

Apache Spark の構成 Microsoft Fabric の値 Azure Synapse Analytics の値 メモ
spark.sql.sources.default delta parquet 既定のテーブル形式
spark.sql.parquet.vorder.enabled true 該当なし V オーダー ライター
spark.sql.parquet.vorder.dictionaryPageSize 2 GB 該当なし V オーダーの辞書ページ サイズの制限
spark.microsoft.delta.optimizeWrite.enabled true 非設定 (false) 書き込みの最適化

テーブルの自動検出

レイクハウス エクスプローラーでは、Microsoft Fabric レイクハウス アイテム内のオブジェクトのツリー状のビューが提供されます。 これは、メタデータ リポジトリと OneLake ストレージで記述されているテーブルを検出して表示する主要な機能を持ちます。 テーブル参照は、レイクハウス エクスプローラーのユーザー インターフェイスの Tables セクションの下に表示されます。 自動検出は、OneLake ショートカット経由で定義されたテーブルにも適用されます。

ショートカット経由テーブル

Microsoft Fabric レイクハウスは、OneLake ショートカット経由で定義されたテーブルをサポートしており、最大限の互換性を実現してデータ移動をなくします。 次の表に、アイテムのそれぞれの種類をショートカット経由で使用する場合のシナリオのベスト プラクティスを示します。

ショートカットのリンク先 ショートカットを作成するべき場所 ベスト プラクティス
Delta Lake テーブル Tables セクション リンク先に複数のテーブルが存在する場合は、テーブルごとに 1 つのショートカットを作成します。
ファイルを含むフォルダー Files セクション 相対パスを使用してリンク先を直接使用するには、Apache Spark を使用します。 パフォーマンスを最大化するには、レイクハウス ネイティブ Delta テーブルにデータを読み込みます。
レガシ Apache Hive テーブル Files セクション 相対パスを使用してリンク先を直接使用するために Apache Spark を使用するか、CREATE EXTERNAL TABLE 構文を使用してメタデータ カタログ参照を作成します。 パフォーマンスを最大化するには、レイクハウス ネイティブ Delta テーブルにデータを読み込みます。

テーブルへ読み込む

Microsoft Fabric レイクハウスには、Delta テーブルへのデータの読み込みを効率化するための便利で生産性の高いユーザー インターフェイスが用意されています。 テーブルへの読み込み機能は、一般的なファイル形式を Delta に読み込み、すべてのペルソナに対する分析の生産性を向上させるビジュアル エクスペリエンスを可能とします。 テーブルへの読み込み機能の詳細については、レイクハウスのテーブルへの読み込みのリファレンス ドキュメントを参照してください。

Delta Lake テーブルの最適化

分析シナリオの広範な範囲に合わせてテーブルを整形することは、並大抵のことではありません。 Microsoft Fabric レイクハウスは、重要なパラメーターを積極的に使用して、圧縮や小さなファイル サイズなど、ビッグ データ テーブルに関連する一般的な問題を最小限に抑え、クエリのパフォーマンスを最大化しています。 それでも、これらのパラメーターに変更が必要なシナリオは多数あります。 Delta Lake テーブルの最適化と V オーダーに関する記事では、いくつかの主要なシナリオをカバーし、効率的に Delta テーブルを最大限のパフォーマンスに維持する方法に関する詳細なガイドを提供しています。