データファクトリパイプラインをデバッグする

8 分

顧客の要求や期待はデータ統合に関連して変化しています。そのため、ユーザーの間で ETL (抽出、変換、読み込み) と ELT (抽出、読み込み、変換) のワークフローを繰り返し開発およびデバッグする必要性がますます高まっています。

Azure Data Factory は、データ統合ソリューションを開発するときに、データファクトリパイプラインの反復デバッグを構築して開発するのに役立ちます。パイプラインキャンバスを使用してパイプラインを作成すると、デバッグ機能を使ってアクティビティとパイプラインをテストできます。

Azure Data Factory では、デバッグする前に、パイプラインやアクティビティの変更を発行する必要はありません。これは、実際に保存して発行する前に、変更をテストして、期待どおりに動作するかどうかを確認するシナリオで役立ちます。

また、パイプライン全体をデバッグするのではなく、パイプラインの一部をテストしたいと考える場合もあります。デバッグの実行では、そのような操作を行うことができます。パイプラインの端から端までテストすることも、ブレークポイントを設定することもできます。デバッグモードで実行すると、パイプラインを構築してデバッグするときに、各ステップの結果を対話形式で確認できます。

パイプラインをデバッグして発行する

実行中のパイプラインを作成または変更するときは、パイプラインキャンバスの [出力] タブで各アクティビティの結果を確認できます。

テストの実行が成功し、結果に問題がなければ、パイプラインにさらにアクティビティを追加し、反復的な方法でデバッグを続行できます。結果に満足できないか、パイプラインのデバッグを中止する場合は、テストの実行中に実行を取り消すことができます。デバッグスライダーを選択すると、実際にパイプラインが実行されることに注意してください。たとえば、パイプラインにコピーアクティビティが含まれている場合、テストの実行によって、データがソースからターゲットにコピーされます。

ベストプラクティスとして、デバッグ時はコピーアクティビティとその他のアクティビティでテストフォルダーを使用します。これにより、結果に問題がなく、パイプラインのデバッグを完了した時点で、通常の操作のために実際のフォルダーに切り替えることができます。

パイプラインをデバッグするには、ツールバーで [デバッグ] を選択します。ウィンドウ下部の [出力] タブにパイプラインの実行の状態が表示されます。

パイプラインを適切に実行できたら、上部のツールバーで [すべて発行] を選択します。これにより、作成したエンティティ (データセットとパイプライン) が Data Factory に発行されます。

[正常に発行されました] というメッセージが表示されるまで待ちます。通知メッセージを表示するには、ポータルの右上にある [通知の表示] (ベルアイコン) (ベルボタン) を選択します。

マップデータフローのデバッグ

マッピングデータフローの構築中は、データのシェイプと変換をデバッグできるように、それらがどのように実行されているかを対話形式で監視できます。この機能を使用するには、最初に "データフローのデバッグ" 機能を有効にする必要があります。

デバッグセッションは、データフロー設計セッションと、データフローのパイプラインデバッグ実行中の両方で使用できます。デバッグモードがオンになった後、実際にはアクティブな Spark クラスターを使用してデータフローを構築することになります。デバッグが無効になると、この Spark クラスターは終了します。どのコンピューティングを使用するかを選択できます。既存のデバッグクラスターを使用すると、起動時間が短縮されます。ただし、複雑なワークロードや並列ワークロードの場合は、独自の Just-In-Time クラスターを作成することをお勧めします。

データフローをデバッグするためのベストプラクティスは、デバッグモードをオンにしたままで、データフローに含まれるビジネスロジックを確認および検証することです。データの変換とシェイプを視覚的に表示すると、変更を確認する場合に役立ちます。

作成したパイプラインでデータフローをテストする場合は、パイプラインパネルの [デバッグ] ボタンを使用することをお勧めします。データプレビューではデータが書き込まれませんが、データフロー内でのデバッグの実行では、パイプラインのデバッグと同様に、データがシンクのターゲットに書き込まれます。

デバッグの設定

前述のように、Azure Data Factory ユーザーインターフェイスから開始される各デバッグセッションは、独自の Spark クラスターを使用した新しいセッションと見なされます。セッションを監視するために、デバッグセッションの監視ビューを使用して、設定されている Data Factory ごとにデバッグセッションを管理できます。

Spark クラスターがデバッグ用に準備できているかどうかを確認するには、デザインサーフェイスの上部にあるクラスター状態の表示を確認します。緑色の場合は、準備ができています。デバッグモードに入ったときにクラスターが実行されなかった場合、クラスターのスピンアップが必要であるため、待機時間は約 5 分から 7 分になる可能性があります。

デバッグを完了した後、Spark クラスターが終了するようにデバッグモードをオフにすることをお勧めします。

デバッグ中は、[デバッグ設定] を選択することでデータフロー内のデータのプレビューを編集できます。データのプレビューを変更する例としては、ソース変換を使用した場合の行制限やファイルソースなどがあります。ステージングリンクサービスを選択すると、ソースとして Azure Synapse Analytics を使用できます。

データフローまたは参照されているデータセットにパラメーターがある場合は、[パラメーター] タブを選択して、デバッグ中に使用する値を指定できます。デバッグ中は、シンクは必要ないため、データフローでは無視されます。変換されたデータをテストしてシンクに書き込む場合は、パイプラインからデータフローを実行し、そのパイプラインからデバッグの実行を使用できます。

前述のように、Azure Data Factory 内では、特定の場所またはアクティビティまでのデバッグのみを行うことができます。これを行うには、テストする場所までのアクティビティにブレークポイントを使用し、[デバッグ] を選択します。 [Debug Until]\(特定の場所までデバッグする\) オプションは、要素の右上隅に空の赤い円として表示されます。 [Debug Until]\(特定の場所までデバッグする\) オプションを選択した後は、赤い円が塗りつぶされ、ブレークポイントが有効になったことが示されます。その後、Azure Data Factory ではパイプライン内のそのブレークポイントアクティビティまでテストが確実に実行されるようにします。この機能は、パイプライン内のアクティビティのサブセットのみをテストする場合に便利です。

ほとんどのシナリオでは、Azure Data Factory のデバッグ機能で十分です。ただし、複製されたサンドボックス環境でパイプラインの変更をテストすることが必要になる場合があります。これを行うユースケースとして、ファイルの到着をトリガーするときと、タンブリング時間枠でトリガーするときのパラメーター化された ETL パイプラインの動作をテストする場合があります。この場合は、サンドボックス環境の複製の方が適している可能性があります。

Azure Data Factory について知っておくとよいことは、課金は主に実行回数単位でのみ行われるため、2 つ目の Data Factory によって追加料金が発生することはないということです。

デバッグ実行を監視する

デバッグ実行を監視するために、出力タブを確認できますが、閲覧セッション内で行われた最新の実行のみが対象となります。これは、履歴が表示されないためです。デバッグ実行の履歴ビューを取得したり、アクティブなデバッグ実行をすべて表示したりする場合は、[監視] タブに移動できます。

注意すべき点は、Azure Data Factory サービスでは、デバッグの実行履歴の保持期間が 15 日間のみということです。データフローのデバッグセッションの監視に関しては、[監視] タブにも移動することになります。

続行

データ ファクトリ パイプラインをデバッグする

パイプラインをデバッグして発行する

マップ データフローのデバッグ

デバッグの設定

デバッグ実行を監視する

フィードバック

マップデータフローのデバッグ