はじめに
複数の異なるソースから Power BI にデータをインポートし、このデータを調べたところ、分析の準備が整っていないというシナリオを考えてみます。 データが分析不可の状態である原因は何でしょうか。
データを調べると、次のようないくつかの問題が見つかりました。
"雇用状態" という名前の列に、数字のみが含まれている。
複数の列にエラーが含まれている。
null 値を含む列がいくつかある。
一部の列の顧客 ID が、何度も重複しているように見える。
1 つの住所列に、番地、市区町村、都道府県、および郵便番号が結合されている。
あなたはデータの操作を開始しましたが、レポートでビジュアルを作成するたびに、不適切なデータや不正な結果が生成され、売上合計に関する単純なレポートに誤りがあります。
ダーティ データは膨大な量になる可能性があり、もどかしく思いながらも操作を開始し、このセマンティック モデルを可能な限り本来の状態にする方法を考えてみることにしました。
幸い、Power BI と Power Query では、データをクリーンアップして準備するための強力な環境が提供されています。 クリーン データには、次の利点があります。
集計と計算を実行すると、メジャーと列によってより正確な結果が生成される。
テーブルが編成されており、ユーザーは直観的にデータを見つけることができる。
重複が削除されるため、データ ナビゲーションがより簡単になる。 また、スライサーとフィルターで使用できる列も生成される。
複雑な列を 2 つの単純な列に分割できる。 判読しやすいように、複数の列を 1 つの列に結合できる。
コードと整数を、人間が判読できる値に置き換えることができる。
このモジュールでは、次の方法を学習します。
不整合、予期しない値または null 値、およびデータ品質の問題を解決する。
ユーザーにわかりやすい値への置換を適用する。
データをプロファイルし、使用前に特定の列について詳しく学べるようにする。
列のデータ型を評価および変換する。
データ シェイプの変換をテーブル構造に適用する。
クエリを結合する。
ユーザーにわかりやすい名前付け規則を列とクエリに適用する。
詳細エディターで M コードを編集する。