データフローの更新について理解し、最適化する

[アーティクル]
11/10/2023

Power BI データフローを使用すると、下流の分析のために、データに接続して、変換、結合、および配布を行うことができます。データフローの重要な要素は、更新プロセスです。これにより、データフロー内に作成した変換ステップが適用され、項目自体のデータが更新されます。

実行日時、パフォーマンス、最大限にデータフローを活用しているかどうかを把握するため、データフローを更新した後で更新履歴をダウンロードできます。

更新について

データフローに適用できる更新は、2 種類あります。

完全。これは、データの完全なフラッシュと再読み込みを実行します。
増分 (Premium のみ) 。これは、フィルターとして表現される、時間ベースの規則に基づいてデータのサブセットを処理します。この規則は、自分で構成します。日付列のフィルターは、Power BI サービスでデータを複数の範囲に動的にパーティション分割します。増分更新を構成すると、データフローによって、日付によるフィルタリングを含むようにクエリが自動的に変更されます。 Power Query の詳細エディターを使用して、自動生成されたクエリを編集し、更新を微調整またはカスタマイズすることができます。独自の Azure Data Lake Storage を使用する場合は、設定した更新ポリシーに基づいてデータのタイムスライスを表示できます。

注意

増分更新とその動作について詳しくは、「データフローでの増分更新の使用」をご覧ください。

Power BI の大規模なデータフローの増分更新には、次の利点があります。

次の理由で、最初の更新後の更新が高速になる。
- Power BI は、ユーザーが指定した最後の N 個のパーティション (パーティションは日、週、月など) を更新します。または
- Power BI は、更新する必要があるデータのみを更新します。たとえば、10 年間のセマンティックモデルの最近の 5 日間のみを更新します。
- ユーザーが変更をチェックする列を指定すると、Power BI は変更されたデータのみを更新します。
更新の信頼性が高くなる - 揮発性のソースシステムへの長時間の接続を維持する必要がありません。
リソースの使用が減る - 更新するデータが少ないと、メモリや他のリソースの全体的な使用が減少します。
Power BI では可能な限りパーティションに対して並列処理が使用され、更新が高速になる可能性があります。

これらのどの更新シナリオでも、更新が失敗した場合、データは更新されません。最新の更新が完了するまで、データが古い可能性があります。または、ユーザーは手動で更新でき、その場合はエラーなしで完了できます。更新はパーティションまたはエンティティで行われるため、増分更新が失敗した場合、またはあるエンティティにエラーがある場合は、更新トランザクション全体が行われません。つまり、パーティション (増分更新ポリシー) またはエンティティでデータフローが失敗した場合、更新操作全体が失敗し、データは更新されません。

更新を理解して最適化する

データフローの更新操作がどのように実行されるかをより深く理解するには、データフローの 1 つに移動して、データフローの [更新履歴] を確認します。データフローの [その他のオプション] (...) を選びます。次に、[設定] > [更新履歴] を選びます。また、[ワークスペース] でデータフローを選ぶこともできます。次に、[その他のオプション] (...) > [更新履歴] を選びます。

Screenshot of dataflows refresh history.

[更新履歴] には、種類 ( [オンデマンド] または [計画済み] )、継続時間、実行状態など、更新の概要が表示されます。 CSV ファイルの形式で詳細を表示するには、更新の説明の行の右端にあるダウンロードアイコンを選択します。ダウンロードした CSV には、次の表に示す属性が含まれています。共有容量に存在する Pro ベースのデータフローに対し、Premium の更新では追加のコンピューティングおよびデータフロー機能に基づく詳細な情報が提供されます。そのため、次のメトリックの一部は Premium でのみ使用できます。

Item	説明	Pro	Premium
要求日時	更新がスケジュールされた、または [今すぐ更新] がクリックされた日時 (ローカル時間)。	✔	✔
データフロー名	データフローの名前。	✔	✔
データフローの更新の状態	完了、失敗、またはスキップ (エンティティの場合) の状態があります。スキップが表示される理由は、リンクされたエンティティなどのユースケースです。	✔	✔
エンティティ名	テーブル名。	✔	✔
パーティション名	この項目はデータフローが Premium かどうかによって決まり、Pro の場合は、増分更新をサポートしていないので NA と表示されます。 Premium では、FullRefreshPolicyPartition または IncrementalRefreshPolicyPartition-[DateRange] が表示されます。		✔
更新の状態	個々のエンティティまたはパーティションの更新の状態。更新されたデータのそのタイムスライスの状態が示されます。	✔	✔
開始時刻	Premium では、この項目は、エンティティまたはパーティションでの処理のためにデータフローがキューに登録された日時です。データフローに依存関係があり、上流のデータフローの結果セットが処理を開始するまで待機する必要がある場合、この日時は異なることがあります。	✔	✔
終了時刻	終了日時は、データフローのエンティティまたはパーティションが完了した日時です (該当する場合)。	✔	✔
Duration	データフローが更新されるまでの合計経過時間 (HH:MM:SS)。	✔	✔
処理された行数	特定のエンティティまたはパーティションに対してデータフローエンジンによってスキャンまたは書き込まれた行数。実行した操作によっては、この項目にデータが含まれないことがあります。コンピューティングエンジンが使われていない場合、またはデータが処理される場所としてゲートウェイを使用する場合は、データが省略されることがあります。		✔
Bytes processed (処理済みバイト数)	特定のエンティティまたはパーティションに対してデータフローエンジンによって書き込まれたデータ (バイト単位)。この特定のデータフローでゲートウェイを使用している場合、この情報は提供されません。		✔
最大コミット (KB)	最大コミットは、M クエリが最適化されていない場合に、メモリ不足のエラーの診断に役立つ最大コミットメモリです。この特定のデータフローでゲートウェイを使用している場合、この情報は提供されません。		✔
Processor Time	特定のエンティティまたはパーティションに対して、データフローエンジンによる変換の実行にかかった時間 (HH:MM:SS)。この特定のデータフローでゲートウェイを使用している場合、この情報は提供されません。		✔
待機時間	特定のエンティティまたはパーティションに対し、Premium 容量のワークロードに基づいて、エンティティが待機状態であった時間。		✔
コンピューティングエンジン	特定のエンティティまたはパーティションについて、更新操作でコンピューティングエンジンがどのように使用されたかに関する詳細。値は次のとおりです。 - NA - 折りたたみ済み - キャッシュ済み - キャッシュ済み + 折りたたみ済みこれらの要素については、この記事で後ほど詳しく説明します。		✔
エラー	該当する場合、詳細なエラーメッセージがエンティティまたはパーティションごとに記述されます。	✔	✔

データフローの更新に関するガイダンス

更新統計情報は、データフローのパフォーマンスの最適化と高速化に使用できる貴重な情報を提供します。以降のセクションでは、いくつかのシナリオと、注意点、提供される情報に基づいて最適化する方法について説明します。

オーケストレーション

同じワークスペースでデータフローを使用すると、簡単なオーケストレーションを実現できます。たとえば、1 つのワークスペースにデータフロー A、B、C があり、A > B > C のようにチェーンしているとします。ソース (A) を更新した場合、下流のエンティティも更新されます。一方、C を更新した場合は、他のものを個別に更新する必要があります。また、データフロー B に新しい (A には含まれていない) データソースを追加した場合、そのデータはオーケストレーションの一部として更新されません。

Power BI で実行されている管理されたオーケストレーションに適合しない項目をまとめて連結したい場合があります。このようなシナリオでは、API と Power Automate の一方または両方を使用できます。プログラムによる更新については、API のドキュメントと PowerShell スクリプトを参照してください。コードを記述せずにこの手順を実行できるようにする Power Automate コネクタがあります。順次更新に関する特定のチュートリアルと合わせて、詳細なサンプルを確認できます。

監視

この記事で前述した高度な更新統計情報を使用すると、データフローごとの詳細な更新情報を取得できます。ただし、テナント全体またはワークスペース全体の更新の概要を含めてデータフローを表示する (おそらく監視ダッシュボードを作成する) 場合は、API または Power Automate テンプレートを使用できます。同様に、単純または複雑な通知の送信などのユースケースでは、Power Automate コネクタを使うか、API を使って独自のカスタムアプリケーションを作成することができます。

タイムアウトエラー

抽出、変換、読み込み (ETL) のシナリオを実行するためにかかる時間を最適化することが理想的です。 Power BI では、次の状況が当てはまります。

一部のコネクタには、構成できる明示的なタイムアウト設定があります。詳しくは、「Power Query のコネクタ」をご覧ください。
Power BI Pro を使用する Power BI データフローでは、エンティティまたはデータフロー自体の中で実行時間の長いクエリのタイムアウトが発生することもあります。その制限は、Power BI Premium ワークスペースにはありません。

タイムアウトに関するガイダンス

Power BI Pro データフローのタイムアウトしきい値は次のとおりです。

個々のエンティティのレベルで 2 時間。
データフロー全体のレベルで 3 時間。

たとえば、3 つのテーブルを含むデータフローがある場合、各テーブルに 2 時間を超える時間がかかることはなく、継続時間が 3 時間を超えると、データフロー全体がタイムアウトになります。

タイムアウトが発生している場合は、データフロークエリを最適化することを検討し、ソースシステムでクエリフォールディングを使用することを検討してください。

これとは別に、Premium Per User にアップグレードすることを検討してください。これには、これらのタイムアウトは適用されず、多くの Power BI Premium Per User の機能のおかげでパフォーマンスが向上します。

長い継続時間

複雑であるか、大規模なデータフローは、最適化が不十分なデータフローのように、更新に時間がかかることがあります。次のセクションでは、長い更新時間を軽減する方法について説明します。

長い更新時間に関するガイダンス

データフローの長い更新時間を改善するための最初のステップは、ベストプラクティスに従ってデータフローを構築することです。重要なパターンは次のとおりです。

後で他の変換において使用できるデータに、リンクされたエンティティを使います。
計算されたエンティティを使用してデータをキャッシュし、ソースシステムでのデータの読み込みとデータインジェストの負荷を減らします。
データをステージングデータフローと変換データフローに分割し、ETL を別々のデータフローに分離します。
テーブル拡張操作を最適化します。
複雑なデータフローに関するガイダンスに従います。

次に、これは、増分更新を使用できるかどうかを評価するために役立てることができます。

増分更新を使用すると、パフォーマンスを向上させることができます。更新操作のためにクエリが送信されるときに、パーティションフィルターがソースシステムにプッシュされることが重要です。フィルタリングをプッシュダウンすることは、データソースでクエリフォールディングがサポートされている必要があることを意味します。または、Power Query によるファイルまたはフォルダーの除外やフィルター処理に役立つビジネスロジックを、関数またはその他の方法を使用して表現できます。 SQL クエリをサポートするほとんどのデータソースでは、クエリフォールディングがサポートされており、一部の OData フィードではフィルタリングもサポートされています。

ただし、フラットファイル、BLOB、API などのデータソースでは通常、フィルタリングはサポートされていません。データソースバックエンドがフィルターをサポートしていない場合は、プッシュダウンできません。そのような場合、フィルターはマッシュアップエンジンによってローカルで補正および適用されます。これには、データソースから完全なセマンティックモデルを取得することが必要な場合があります。この操作により、増分更新が低速になり、Power BI サービスまたはオンプレミスのデータゲートウェイ (使用されている場合) でプロセスがリソース不足になる可能性があります。

各データソースでさまざまなレベルのクエリフォールディングがサポートされている場合は、検証を実行して、ソースのクエリにフィルターロジックが含まれていることを確認する必要があります。これを簡単にするために、Power BI では、Power Query Online のステップフォールディングインジケーターを使用して、この検証の実行が試行されます。これらの最適化の多くは設計時に行われますが、更新が行われた後、更新のパフォーマンスを分析して最適化する機会があります。

最後に、環境を最適化することを検討します。次の最適化を行って、容量のスケールアップ、データゲートウェイの適切なサイズ設定、ネットワーク待機時間の短縮を行うことで、Power BI 環境を最適化できます。

Power BI Premium または Premium Per User で使用可能な容量を使用する場合は、Premium インスタンスを増やすか、その中身を別の容量に割り当てることで、パフォーマンスを向上させることができます。
インターネット経由で直接利用できないデータに Power BI がアクセスする必要がある場合は、必ずゲートウェイが必要です。オンプレミスのサーバーまたは仮想マシンにオンプレミスデータゲートウェイをインストールできます。
- ゲートウェイのワークロードとサイズ設定の推奨事項について理解するには、「オンプレミスデータゲートウェイのサイズ設定」をご覧ください。
- また、データを最初にステージングデータフローに取り込むことと、リンクおよび計算されたエンティティを使用して下流で参照することも評価します。
ネットワーク待機時間は、要求が Power BI サービスに到達するまでに要する時間と、応答の配信に要する時間が増えることで、更新のパフォーマンスに影響を及ぼす可能性があります。 Power BI のテナントは、特定のリージョンに割り当てられています。テナントの場所を確認するには、「組織の既定のリージョンを確認する」をご覧ください。テナントのユーザーが Power BI サービスにアクセスすると、彼らの要求は常にそのリージョンにルーティングされます。要求が Power BI サービスに到達したときに、サービスから追加の要求が送信されることがあります (たとえば、基になるデータソースやデータゲートウェイに対して)。これもネットワーク待機時間の影響を受けます。
- Azure Speed Test などのツールによって、クライアントと Azure リージョン間のネットワーク待機時間の表示が提供されます。一般に、ネットワーク待機時間の影響を最小限に抑えるには、データソース、ゲートウェイ、および Power BI クラスターをできるだけ近くに配置するようにします。同じリージョンに置くことをお勧めします。ネットワーク待機時間が問題になっている場合は、ゲートウェイとデータソースをクラウドでホストされる仮想マシン内に配置することで、Power BI クラスターにより近い位置に配置してみてください。

長いプロセッサ時間

プロセッサ時間が長い場合は、コストのかかる変換がフォールディングされていない可能性があります。長いプロセッサ時間の原因は、適用されているステップの数または行っている変換の種類です。どちらの場合も、更新時間が長くなる可能性があります。

長いプロセッサ時間に関するガイダンス

長いプロセッサ時間を最適化するための 2 つのオプションがあります。

まず、データソース自体の中でクエリフォールディングを使用します。これにより、データフローコンピューティングエンジンの負荷が直接軽減されます。データソース内でのクエリフォールディングにより、ソースシステムでほとんどの作業を実行できます。その場合、データフローは、最初のクエリの後にメモリ内ですべての計算を実行する必要がなく、ソースのネイティブ言語でクエリをパススルーできます。

すべてのデータソースでクエリフォールディングを実行できるわけではありません。また、クエリフォールディングが可能な場合でも、ソースにフォールドできない特定の変換を実行するデータフローが存在する可能性があります。このような場合、Power BI によって導入された拡張コンピューティングエンジン機能を使うと、特に変換のパフォーマンスが場合によっては最大 25 倍に向上する可能性があります。

コンピューティングエンジンを使用してパフォーマンスを最大限に高める

Power Query では、設計時にクエリフォールディングが表示されますが、コンピューティングエンジンの列には、内部エンジン自体が使用されているかどうかの詳細が表示されます。コンピューティングエンジンは、複雑なデータフローが存在し、メモリ内で変換を実行している場合に便利です。このような状況では、エンジン自体が使われたかどうかの詳細がコンピューティングエンジンの列に表示されるので、高度な更新統計情報が役立つ可能性があります。

以降のセクションでは、コンピューティングエンジンとその統計情報の使用に関するガイダンスを提供します。

警告

デザイン時に、エディターのフォールディングインジケーターで、別のデータフローからのデータを使用するときにクエリでフォールディングが行われないことが示される場合があります。拡張コンピューティングが有効になっている場合はソースデータフローを確認し、ソースデータフローの折りたたみが有効になっていることを確認します。

コンピューティングエンジンの状態に関するガイダンス

拡張コンピューティングエンジンをオンにし、さまざまな状態を理解すると、役に立ちます。内部的には、拡張コンピューティングエンジンは SQL データベースを使ってデータの読み取りと格納を行います。ここでクエリエンジンに対して変換を実行することをお勧めします。以下の段落では、さまざまな状況と、それぞれの場合にすべきことについてのガイダンスを示します。

NA - この状態は、次のいずれかの理由でコンピューティングエンジンが使われなかったことを意味します。

Power BI Pro のデータフローを使っています。
コンピューティングエンジンを明示的にオフにしました。
データソースでクエリフォールディングを使っています。
クエリの高速化に使われる SQL エンジンを使用できない複雑な変換を実行しています。

継続時間が長いのに状態が [NA] である場合は、オンになっていて、誤ってオフになっていないことを確認してください。推奨されるパターンの 1 つは、ステージングデータフローを使って最初にデータを Power BI サービスに取リ込み、それがステージングデータフローに入った後、このデータを基にしてデータフローを構築することです。このパターンにより、ソースシステムの負荷が軽減され、コンピューティングエンジンと共に、変換の速度を上げ、パフォーマンスを向上させることができます。

キャッシュ済み - キャッシュ済みの状態が表示される場合、データフローデータはコンピューティングエンジンに格納されたので、別のクエリの一部として参照できます。この状況は、リンクされたエンティティとしてそれを使っている場合に理想的です。これは、コンピューティングエンジンによってダウンストリームで使用するためにそのデータがキャッシュされるためです。キャッシュされたデータを同じデータフローで複数回更新する必要はありません。この状況は、DirectQuery にそれを使用する場合にも最適である可能性があります。

キャッシュされた場合、初期インジェストでのパフォーマンスの影響は、後で同じデータフローまたは同じワークスペース内の異なるデータフローで良い結果をもたらします。

エンティティの継続時間が長い場合は、コンピューティングエンジンをオフにすることを検討します。 Power BI は、エンティティをキャッシュするために、ストレージおよび SQL に書き込みます。単一使用エンティティの場合、ユーザーにとってのパフォーマンス上の利点は、二重インジェストのデメリットに見合わない可能性があります。

フォールディング済み - フォールディング済みは、データフローでデータの読み込みに SQL コンピューティングを使用できたことを意味します。計算されたエンティティは SQL のテーブルを使用してデータを読み取ったので、使用された SQL はクエリの構造に関連付けられています。

折りたたみ済み状態が表示されるのは、オンプレミスまたはクラウドのデータソースを使用しているときに、最初にデータをステージングデータフローに読み込んで、このデータフローで参照した場合です。この状態は、別のエンティティを参照するエンティティにのみ適用されます。これは、クエリが SQL エンジンの上で実行されたことを意味し、SQL コンピューティングを使用すると改善される可能性があります。変換が SQL エンジンによって処理されるようにするには、クエリエディターでマージ (結合)、グループ化 (集計)、追加 (和集合) アクションなど、SQL フォールディングをサポートする変換を使用します。

キャッシュ済み + フォールディング済み - キャッシュ済み + フォールディング済みが表示される場合は、別のエンティティを参照し、かつ別のエンティティの上流によって参照されているエンティティがあるため、データ更新が最適化されている可能性があります。この操作は、SQL の上でも実行されます。そのため、SQL コンピューティングを使用すると、改善される可能性もあります。実現可能である最適なパフォーマンスが得られるようにするには、クエリエディターでマージ (結合)、グループ化 (集計)、追加 (和集合) アクションなど、SQL フォールディングをサポートする変換を使用します。

コンピューティングエンジンのパフォーマンスの最適化に関するガイダンス

次の手順では、ワークロードでコンピューティングエンジンをトリガーできるため、常にパフォーマンスが向上します。

計算されたエンティティとリンクされたエンティティが同じワークスペース内にある場合:

インジェストに関しては、セマンティックモデル全体のサイズを小さくする場合にのみフィルターを使用して、できるだけ早くストレージにデータを取り込むことに注目します。変換ロジックはこの手順とは別に保持します。次に、変換とビジネスロジックを、同じワークスペース内の別のデータフローに分けます。リンクまたは計算されたエンティティを使います。このようにすると、エンジンは計算をアクティブ化して高速化できます。簡単な例えでは、厨房での食品の準備のようなものです。通常、食品の準備は素材を集めることとは異なる別の手順であり、食品をオーブンに入れるための前提条件となります。同様に、コンピューティングエンジンを利用する前に、ロジックを個別に準備する必要があります。

フォールドする操作 (結合、結合、変換、およびその他の操作など) を確実に実行してください。

また、公開されているガイドラインと制限事項の範囲内でデータフローを構築します。

コンピューティングエンジンはオンになっているがパフォーマンスが低下している場合:

コンピューティングエンジンがオンになっていても、パフォーマンスの低下が見られるシナリオについて調べる場合は、次の手順を行います。

ワークスペース全体に存在する計算されたエンティティおよびリンクされたエンティティを制限します。
コンピューティングエンジンをオンにして最初の更新を行うと、データはレイクとキャッシュの "両方" に書き込まれます。この二重書き込みにより、更新が遅くなります。
複数のデータフローにリンクされているデータフローがある場合は、すべての更新が同時に行われないように、必ずソースデータフローの更新をスケジューリングしてください。

考慮事項と制限事項

Power BI Pro ライセンスでは、データフローの更新は 1 日あたり 8 回に制限されます。

次の方法で共有

データフローの更新について理解し、最適化する

更新について

更新を理解して最適化する

データフローの更新に関するガイダンス

オーケストレーション

監視

タイムアウトエラー

タイムアウトに関するガイダンス

長い継続時間

長い更新時間に関するガイダンス

長いプロセッサ時間

長いプロセッサ時間に関するガイダンス

コンピューティングエンジンを使用してパフォーマンスを最大限に高める

コンピューティングエンジンの状態に関するガイダンス

コンピューティングエンジンのパフォーマンスの最適化に関するガイダンス

考慮事項と制限事項

フィードバック

その他のリソース

次の方法で共有

データフローの更新について理解し、最適化する

更新について

更新を理解して最適化する

データフローの更新に関するガイダンス

オーケストレーション

監視

タイムアウト エラー

タイムアウトに関するガイダンス

長い継続時間

長い更新時間に関するガイダンス

長いプロセッサ時間

長いプロセッサ時間に関するガイダンス

コンピューティング エンジンを使用してパフォーマンスを最大限に高める

コンピューティング エンジンの状態に関するガイダンス

コンピューティング エンジンのパフォーマンスの最適化に関するガイダンス

考慮事項と制限事項

関連するコンテンツ

フィードバック

その他のリソース

タイムアウトエラー

コンピューティングエンジンを使用してパフォーマンスを最大限に高める

コンピューティングエンジンの状態に関するガイダンス

コンピューティングエンジンのパフォーマンスの最適化に関するガイダンス