Microsoft Fabric Warehouse でのディメンショナルモデリング: テーブルの読み込み

[アーティクル]
06/25/2024

適用対象: Microsoft Fabric の SQL 分析エンドポイントとウェアハウス

Note

この記事は、ディメンショナルモデリングに関するシリーズ記事の一部を構成します。このシリーズでは、Microsoft Fabric Warehouse でのディメンショナルモデリングに関連するガイダンスと設計のベストプラクティスに焦点を当てています。

この記事では、ディメンショナルモデルにディメンションテーブルとファクトテーブルを読み込むためのガイダンスとベストプラクティスについて説明します。 Microsoft Fabric の Warehouse の実用的なガイダンスを提供します。これは、テーブルの作成やテーブル内のデータの管理など、多くの T-SQL 機能をサポートするエクスペリエンスです。そのため、ディメンションモデルテーブルの作成し、データをそこに読み込むのを完全に制御できます。

Note

この記事では、データウェアハウス という用語は、組織全体で重要なデータの包括的な統合を提供するエンタープライズデータウェアハウスを指します。これに対し、スタンドアロンの用語 warehouse は Fabric Warehouse を指します。これは、Data Warehouse の実装に使用できるサービスとしてのソフトウェア (SaaS) リレーショナルデータベースオファリングです。わかりやすくするために、この記事では後者を Fabric Warehouse として説明します。

ヒント

ディメンショナルモデリングに慣れてない場合は、この一連の記事を最初のステップで検討してください。これは、ディメンショナルモデリング設計に関する完全な説明を提供することを目的としていません。詳細については、Ralph Kimball その他による「The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (2013 年第 3 版)」など、広く採用されている公開コンテンツを直接参照してください。

ディメンショナルモデルを読み込む

ディメンショナルモデルの読み込みには、抽出、変換、読み込み (ETL) プロセスを定期的に実行する必要があります。 ETL プロセスは、他のプロセスの実行を調整します。通常は、ソースデータのステージング、ディメンションデータの同期、ファクトテーブルへの行の挿入、監査データとエラーの記録に関係します。

Fabric Warehouse ソリューションに関して、データファクトリを使用して ETL プロセスを開発して実行できます。このプロセスでは、ソースデータをステージング、変換、およびディメンショナルモデルテーブルに読み込むことができます。

具体的には次のことができます。

データパイプラインを使用して、ETL プロセスを調整するワークフローを構築します。データパイプラインでは、SQL スクリプト、ストアドプロシージャなどを実行できます。
データフローを使用して、数百のデータソースからデータを取り込むローコードロジックを開発します。データフローでは、複数のソースからのデータの結合、データの変換、およびディメンショナルモデルテーブルなどの変換先への読み込みがサポートされます。データフローは、Microsoft Excel や Power BI Desktop など、多くの Microsoft 製品で現在利用できる使い慣れた Power Query エクスペリエンスを使用して構築されています。

Note

ETL の開発は複雑になり、開発が困難な場合があります。データウェアハウス開発労力の 60 ～ 80% が ETL プロセス専用であると推定されます。

オーケストレーション

ETL プロセスの一般的なワークフローは、次のとおりです:

必要に応じて、ステージングテーブル読み込みます。
ディメンションテーブルの処理。
ファクトテーブルの処理。
必要に応じて、依存する Fabric コンテンツの更新 (セマンティックモデルなど) のきっかけとなる後処理タスクを実行します。

図は、前の段落で説明した ETL プロセスの 4 つの手順を示しています。

ディメンションテーブルは、最後の ETL プロセス以降にソースシステムに追加されたものを含め、すべてのディメンションメンバーを確実に格納するために、最初に処理する必要があります。アウトリガーディメンションの場合と同様に、ディメンション間に依存関係がある場合、ディメンションテーブルは依存関係の順序で処理する必要があります。たとえば、顧客ディメンションと販売店ディメンションで使用される地理ディメンションは、他の 2 つのディメンションの前に処理する必要があります。

ファクトテーブルは、すべてのディメンションテーブルが処理されると処理できます。

すべてのディメンショナルモデルテーブルが処理されると、依存セマンティックモデルの更新がトリガーされる場合があります。また、関連タッフに通知を送信して、ETL プロセスの結果を通知することをお勧めします。

ステージデータ

ステージングソースデータは、データの読み込みと変換の要件をサポートするのに役立ちます。これには、ソースシステムデータの抽出とステージングテーブルへの読み込みが含まれます。このテーブルは、ETL プロセスをサポートするために作成されます。ソースデータは次のことが可能であるため、ステージングすることをお勧めします:

運用システムへの影響を最小限に抑えます。
ETL 処理を支援し、最適化するために使用します。
ソースシステムからデータを再読み込みすることなく、ETL プロセスを再起動する機能を提供します。

ステージングテーブル内のデータをビジネスユーザーが使用できないようにする必要があります。 ETL プロセスにのみ関連します。

Note

データが Fabric Lakehouse に格納されている場合、データウェアハウスでデータをステージングする必要がない場合があります。メダリオンアーキテクチャを実装している場合、ブロンズ、シルバー、またはゴールドのいずれかのレイヤーからデータを取得できます。

staging という名前のスキーマをウェアハウスに作成することをお勧めします。ステージングテーブルは、列名とデータ型の観点から、可能な限りソーステーブルと共通点がある必要があります。各テーブルの内容は、ETL プロセスの開始時に削除する必要があります。ただし、Fabric Warehouse テーブルを切り捨てることはできないことに注意してください。代わりに、各ステージングテーブルを削除して再作成してから、データを読み込むことができます。

ステージング戦略の一部として、データ仮想化の代替手段を検討することもできます。使用できるもの:

ミラーリング。これは、OneLake でデータのレプリカを作成できる、低コストで低遅延のターンキーソリューションです。詳細については、「Fabric でのミラーリングを使用する理由」を参照してください。
OneLake ショートカット。これは、ソースデータを含むことができる他のストレージの場所を指します。ショートカットは、T-SQL クエリテーブルとして使用できます。
SQL Server の PolyBase は、SQL Server 用のデータ仮想化機能です。 PolyBase を使用すると、T-SQL クエリで、外部ソースからのデータを SQL Server のインスタンス内のリレーショナルテーブルに結合できるようになります。
Azure SQL Managed Instance によるデータ仮想化。これにより、Azure Data Lake Storage (ADLS) Gen2 または Azure Blob Storage に一般的なデータ形式でデータを格納するファイルに対してT-SQL クエリを実行し、結合を用いることでローカルに格納されたリレーショナルデータと結合することができます。

データを変換する

ソースデータの構造は、ディメンショナルモデルテーブルの変換先の構造とは異なっている場合があります。そのため、ETL プロセスでは、ディメンショナルモデルテーブルの構造に合わせてソースデータを作り直す必要があります。

また、データウェアハウスは浄化された適合済データを提供する必要があるため、品質と一貫性を確保するためにソースデータを変換する必要がある場合があります。

Note

「garbage in, garbage out (ごみを入れればごみしか出てこない)」の概念は、データウェアハウスに確実に当てはまります。したがって、ガベージ (低品質) データをディメンショナルモデルテーブルに読み込まないようにします。

ETL プロセスで実行できる変換をいくつか次に示します。

データの結合: 一致するキーに基づいて、さまざまなソースのデータを統合 (マージ) できます。たとえば、製品データはさまざまなシステム (製造やマーケティングなど) に保存され、すべて共通の最小在庫管理単位 (SKU) を使用します。データは、共通の構造を共有するときに追加することもできます。たとえば、売上データは複数のシステムに格納されます。各システムからの販売数の和集合は、すべての販売データの上位集合を生成できます。
データ型の変換: データ型は、ディメンショナルモデルテーブルで定義されているものに変換できます。
計算: 計算は、ディメンショナルモデルテーブルの値を生成するために実行できます。たとえば、従業員ディメンションテーブルの場合、姓と名を連結してフルネームを生成できます。別の例として、販売ファクトテーブルでは、単価と数量の積である総売上高を計算できます。
履歴変更を検出して管理する: 変更を検出し、ディメンションテーブルに適切に格納できます。詳細については、この記事で後述する「履歴変更の管理」を参照してください。
集計データ: 集計を使用して、ファクトテーブルの次元性を減らしたり、ファクトの細分性を上げたりすることができます。たとえば、販売注文番号を格納する必要はありません。したがって、すべてのディメンションキーによってグループ化された集計結果を使用して、ファクトテーブルデータを格納できます。

データの読み込み

次のデータインジェストオプションを使用して、Fabric Warehouse にテーブルを読み込むことができます。

COPY INTO (T-SQL): このオプションは、ソースデータが外部の Azure ストレージアカウントに格納されている Parquet または CSV ファイル (ADLS Gen2、Azure Blob Storage など) で構成される場合に便利です。
データパイプライン: ETL プロセスの調整に加えて、データパイプラインには、T-SQL ステートメントを実行するアクティビティ、検索を実行するアクティビティ、データソースから貼り付け先にデータをコピーするアクティビティを含めることができます。
データフロー: パイプラインの代わりに、データフローを使用して、データを変換し、クリーニングするためのコードフリーのエクスペリエンスを行います。
クロスウェアハウスインジェスト: データが同じワークスペースに格納されている場合、クロスウェアハウスインジェストでは、異なるウェアハウステーブルまたはレイクハウステーブルを結合できます。 INSERT…SELECT、SELECT INTO、CREATE TABLE AS SELECT (CTAS)などの T-SQL コマンドをサポートしています。これらのコマンドは、同じワークスペース内のステージングテーブルからデータを変換して読み込む場合に特に便利です。また、これらはセットベースの操作であり、ディメンショナルモデルテーブルを読み込む最も効率的で最速の方法である可能性が高くなります。

ヒント

ベストプラクティスを含むこれらのデータインジェストオプションの詳細については、「Warehouse へのデータのインジェスト」を参照してください。

ログ機能

ETL プロセスには、通常、専用の監視とメンテナンスが必要です。このような理由から、ETL プロセスの結果をウェアハウス内の非ディメンショナルモデルテーブルに記録することをお勧めします。 ETL プロセスごとに一意の ID を生成し、それを使用してすべての操作の詳細をログに記録する必要があります。

ログ記録を検討してください:

ETL プロセス:
- 各 ETL 実行ための一意の ID
- [開始時刻および終了時刻]
- 状態 (成功または失敗)
- 発生したすべてのエラー
各ステージングモデルテーブルとディメンションモデルテーブル:
- [開始時刻および終了時刻]
- 状態 (成功または失敗)
- 挿入、更新、および削除された行
- 最終テーブルの行数
- 発生したすべてのエラー
その他の操作:
- セマンティックモデルの更新操作の開始時刻と終了時刻

ヒント

ETL プロセスの監視と分析専用のセマンティックモデルを作成できます。プロセス期間は、レビューと最適化の恩恵を受ける可能性があるボトルネックを特定するのに役立ちます。行数を使用すると、ETL が実行されるたびに増分読み込みのサイズを把握でき、データウェアハウスの将来のサイズ (および必要に応じて、ファブリック容量をスケールアップするタイミング) を予測するのにも役立ちます。

ディメンションテーブルの処理

ディメンションテーブルの処理には、データウェアハウスデータとソースシステムの同期が含まれます。ソースデータは最初に変換され、ディメンションテーブルに読み込むための準備が行われます。このデータは、ビジネスキーで結合することで、既存のディメンションテーブルデータと照合されます。その後、ソースデータが新しいデータまたは変更されたデータを表しているかどうかを判断できます。ディメンションテーブルが、ゆっくり変化するディメンション (SCD) タイプ 1 を適用すると、既存のディメンションテーブルの行を更新することによって変更が行われます。テーブルが SCD タイプ 2 の変更を適用すると、既存のバージョンの有効期限が切れ、新しいバージョンが挿入されます。

次の図は、ディメンションテーブルの処理に使用されるロジックを示しています。

次の段落で説明するように、新しいソース行と変更されたソース行をディメンションテーブルに読み込む方法を説明するフローを示す図。

Product ディメンションテーブルのプロセスについて考えてみましょう。

新しい製品がソースシステムに追加されると、Productディメンションテーブルに行が挿入されます。
製品が変更されると、ディメンションテーブル内の既存の行が更新または挿入されます。
- SCD タイプ 1 が適用されると、既存の行が更新されます。
- SCD タイプ 2 が適用されると、現在の行バージョンが 失効する 更新が行われ、現在のバージョンを表す新しい行が挿入されます。
- SCD タイプ 3 が適用されると、SCD タイプ 1 のようなプロセスが発生し、新しい行を挿入せずに既存の行が更新されます。

代理キー

各ディメンションテーブルには、可能な限り最小の整数型を使用する代理キーを用意することをお勧めします。 SQL Server ベースの環境では、ID 列を作成することによってこれを行うのが一般的ですが、この機能はFabric Warehouseではサポートされていません。代わりに、一意識別子を生成する回避策の技術を使用する必要があります。

重要

ディメンションテーブルに自動的に生成された代理キーが含まれている場合は、切り捨てキーと完全な再読み込みを実行しないでください。これは、ディメンションを使用するファクトテーブルに読み込まれたデータが無効になるためです。また、ディメンションテーブルで SCD タイプ 2 の変更がサポートされている場合は、履歴バージョンを再生成できない可能性があります。

履歴変更の管理

ディメンションテーブルで履歴変更を格納する必要がある場合、ゆっくり変化するディメンション (SCD) を実装する必要があります。

Note

ディメンションテーブル行が予想メンバーである場合 (ファクトロードプロセスによって挿入されます)、SCD の変更ではなく、変更を到着遅延ディメンションの詳細として扱う必要があります。この場合、変更されたすべての属性を更新し、予想メンバーフラグ列を FALSE に設定する必要があります。

ディメンションで SCD タイプ 1 または SCD タイプ 2 の変更をサポートできる可能性があります。

SCD タイプ 1

SCD タイプ 1 の変更が検出された場合は、次のロジックを使用します。

変更された属性を更新します。
テーブルに [最終変更日] 列および [最終更新時刻] 列が含まれる場合は、変更を加えた現在の日付とプロセスを設定します。

SCD タイプ 2

SCD タイプ 2 の変更が検出された場合は、次のロジックを使用します。

終了日の有効期間列を ETL 処理日 (またはソースシステムの適切なタイムスタンプ) に設定し、現在のフラグを FALSE に設定することで、現在のバージョンを期限切れにします。
テーブルに [最終変更日] 列および [最終更新時刻] 列が含まれる場合は、変更を加えた現在の日付とプロセスを設定します。
開始日の有効期間列が、終了日の有効期間列の値 (以前のバージョンの更新に使用) に設定され、現在のバージョンフラグが TRUE に設定されている新しいメンバーを挿入します。
テーブルに [作成日] 列および [作成時刻] 列が含まれる場合、挿入を行った現在の日付とプロセスを設定します。

SCD タイプ 3

SCD タイプ 3 変更が検出された場合は、SCD タイプ 1 の処理と同様のロジックを使用して属性を更新します。

ディメンションメンバーの削除

ソースデータがディメンションメンバーが削除されたことを示す場合は注意してください (ソースシステムから取得されていないか、削除済みのフラグが設定されているため)。ディメンションメンバーがエラーで作成され、関連するファクトレコードがない場合を除き、削除をディメンションテーブルと同期しないでください。

ソースの削除を処理する適切な方法は、論理的な削除 として記録することです。論理的な削除では、ディメンションメンバーがアクティブまたは有効でなくなったものとしてマークされます。このケースをサポートするには、ディメンションテーブルに、IsDeletedなどの ビット データ型を持つブール値の属性を含める必要があります。削除されたディメンションメンバーのこの列を TRUE (1) に更新します。ディメンションメンバーの現在の最新バージョンも、IsCurrentまたは IsActive 列にブール値 (ビット) 値でマークされている場合があります。すべてのレポートクエリと Power BI セマンティックモデルは、論理的な削除であるレコードを除去する必要があります。

日付ディメンション

カレンダーディメンションと時間ディメンションは、通常はソースデータがないため、特殊なケースです。代わりに、固定ロジックを使用して生成されます。

毎年の年初に日付ディメンションテーブルを読み込み、その行を特定の年数まで拡張する必要があります。その他のビジネスデータ (会計年度データ、休日、週番号など) が定期的に更新される場合があります。

日付ディメンションテーブルに相対変位属性が含まれている場合、現在の日付 (今日) に基づいてオフセット属性値を更新するには、ETL プロセスを毎日実行する必要があります。

日付ディメンションテーブルを拡張または更新するロジックは、T-SQL で記述し、ストアドプロシージャにカプセル化することをお勧めします。

ファクトテーブルの処理

ファクトテーブルの処理には、データウェアハウスデータとソースシステムのファクトの同期が含まれます。ソースデータは最初に変換され、ファクトテーブルに読み込むための準備が行われます。次に、ディメンションキーごとに、ファクト行に格納する代理キー値が検索によって決定されます。ディメンションが SCD タイプ 2 をサポートしている場合は、ディメンションメンバーの 現在のバージョン の代理キーを取得する必要があります。

Note

通常、サロゲートキーは、YYYYMMDDまたは HHMM 形式を使用する必要があるため、日付ディメンションと時刻ディメンションに対して計算できます。詳細については、「カレンダーおよび時間」を参照してください。

ディメンションキーの検索が失敗した場合は、ソースシステムの整合性の問題を示している可能性があります。この場合も、ファクト行をファクトテーブルに挿入する必要があります。有効なディメンションキーは、引き続き格納する必要があります。 1 つの方法は、特殊なディメンションメンバー ([未確認] など) を格納することです。この方法では、既知の場合、真のディメンションキー値を正しく割り当てるために、後で更新する必要があります。

重要

Fabric Warehouse は外部キーを適用しないため、ETL プロセスがファクトテーブルにデータを読み込むときに整合性をチェックすることが重要です。

ナチュラルキーが有効であるという確信がある場合に関連する、他の方法は、新しいディメンションメンバーを挿入し、その代理キー値を格納することです。詳細については、このセクションで後述する「予想ディメンションメンバー」を参照してください。

次の図は、ファクトテーブルの処理に使用されるロジックを示しています。

図は、前の段落で説明したように、新しいソース行をファクトテーブルに読み込む方法を説明するフローを示しています。

可能な限り、ファクトテーブルを段階的に読み込む必要があります。つまり、新しいファクトが検出されて挿入されます。増分読み込みの戦略は拡張性が高く、ソースシステムと移行先システムの両方のワークロードが軽減されます。

重要

特に大規模なファクトテーブルの場合は、ファクトテーブルを切り捨てて再読み込みするのは最後の手段です。このアプローチは、処理時間、コンピューティングリソース、およびソースシステムの中断の可能性という点でコストがかかります。また、ファクトテーブルのディメンションが SCD タイプ 2 を適用する場合も複雑になります。これは、ディメンションメンバーのバージョンの有効期間内にディメンションキーの参照を行う必要があるためです。

できれば、ソースシステム識別子またはタイムスタンプに依存することで、新しいファクトを効率的に検出できます。たとえば、ソースシステムが順番に販売注文を確実に記録する場合、取得した最新の販売注文番号 (高基準値と呼ばれます) を格納できます。次のプロセスでは、その販売注文番号を使用して新しく作成された販売注文を取得できます。また、次のプロセスで使用するために取得された最新の販売注文番号を格納します。また、作成日 列を使用して、新しい注文を確実に検出できる可能性もあります。

ソースシステムデータに依存して新しいファクトを効率的に検出できない場合は、ソースシステムの機能に依存して増分読み込みを実行できる可能性があります。たとえば、SQL Server と Azure SQL Managed Instance には、テーブル内の各行の変更を追跡できる変更データキャプチャ (CDC) と呼ばれる機能があります。また、SQL Server、Azure SQL Managed Instance、Azure SQL Database には、変更された行を識別できる変更の追跡と呼ばれる機能があります。有効にすると、任意のデータベーステーブル内の新しいデータまたは変更されたデータを効率的に検出できます。挿入、更新、または削除されたテーブルレコードのキーを格納するトリガーをリレーショナルテーブルに追加することもできます。

最後に、属性を使用して、ソースデータをファクトテーブルに関連付けることができます。たとえば、販売注文番号と販売注文明細行番号です。ただし、大規模なファクトテーブルの場合、新しいファクト、変更されたファクト、または削除されたファクトを検出するのは非常に費用のかかる操作になる可能性があります。また、ソースシステムが運用データをアーカイブする場合にも問題が発生する可能性があります。

予想ディメンションメンバー

ファクトの読み込みプロセスが新しいディメンションメンバーを挿入する場合、これは 予想メンバー として知られています。たとえば、ホテルのゲストがチェックインすると、ホテルチェーンにロイヤルティメンバーに加入するように求められます。会員番号は直ちに発行されますが、ゲストが書類を提出するまで、ゲストの詳細は分からない場合があります (分かることの方が稀です)。

ディメンションメンバーについて知られているのは、そのナチュラルキーです。ファクトロードプロセスでは、未確認 属性値を使用して新しいディメンションメンバーを作成する必要があります。重要なのは、IsInferredMember [監査の属性] を TRUE に設定することです。こうすることで、到着の遅延に関する詳細がソース化されると、ディメンションの読み込みプロセスでディメンション行に必要な更新を行うことができます。詳細については、この記事の「履歴変更の管理」を参照してください。

ファクトの更新または削除

ファクトデータの更新または削除が必要になる場合があります。たとえば、販売注文が取り消された場合や、注文数量が変更された場合などです。ファクトテーブルの読み込みについて前述したように、変更を効率的に検出し、ファクトデータに対して適切な変更を実行する必要があります。取り消された注文のこの例では、販売注文の状態が オープン から キャンセル済 に変更される可能性があります。この変更には、行の削除ではなく、ファクトデータの更新が必要になります。数量変更の場合は、ファクト行数量の測定値の更新が必要になります。 論理的な削除 を使用するこの戦略では履歴が保持されます。論理的な削除では、行がアクティブまたは有効ではなくなったとマークされます。また、すべてのレポートクエリと Power BI セマンティックモデルは、論理的な削除であるレコードを除外する必要があります。

ファクトの更新または削除が予想される場合は、変更するファクト行を識別するのに役立つ属性 (販売注文番号とその販売注文明細行番号など) をファクトテーブルに含める必要があります。効率的な変更操作をサポートするには、これらの列のインデックスを作成してください。

最後に、特殊なディメンションメンバー (未確認 など) を使用してファクトデータを挿入した場合は、このようなファクト行の現在のソースデータを取得し、ディメンションキーを有効な値に更新する定期的なプロセスを実行する必要があります。

Fabric Warehouse へのデータの取得の詳細については、以下を参照してください:

次の方法で共有

Microsoft Fabric Warehouse でのディメンショナルモデリング: テーブルの読み込み