Synapse Studio を使用して Apache Spark アプリケーションを監視する

Azure Synapse Analytics では、Apache Spark を使用して、ワークスペース内の Apache Spark プールでノートブック、ジョブ、およびその他の種類のアプリケーションを実行できます。

この記事では、Apache Spark アプリケーションを監視する方法を説明し、最新の状態、問題、および進捗状況を監視できるようにします。

Apache Spark アプリケーションを表示する

すべての Apache Spark アプリケーションは、[モニター] ->[Apache Spark アプリケーション] から表示できます。

Apache Spark アプリケーションのスクリーンショット。

完了した Apache Spark アプリケーションを表示する

[モニター] を開き、次に [Apache Spark アプリケーション] を選択します。 完了した Apache Spark アプリケーションの詳細を表示するには、Apache Spark アプリケーションを選択します。

完了したジョブの詳細のスクリーンショット。

  1. 完了したタスク状態、および合計実行時間を確認します。

  2. ジョブを更新します。

  3. [アプリケーションの比較] をクリックして比較機能を使用します。この機能の詳細については、「Apache Spark アプリケーションの比較」を参照してください。

  4. [Spark History Server] をクリックして [History Server] ページを開きます。

  5. 概要情報を確認します。

  6. [診断] タブで診断を確認します。

  7. ログを確認します。 ドロップダウン リストで対応する項目を選ぶことにより、LivyPrelaunch の完全なログ、Driver のログを見ることができます。 キーワードで検索して、必要なログの情報を直接取得することもできます。 [Download log](ログのダウンロード) をクリックしてローカルにログの情報をダウンロードし、 [Filter errors and warnings](エラーと警告を絞り込む) のチェック ボックスに印を入れて、エラーと警告を必要なものに絞り込んでください。

  8. 生成されたジョブ グラフで、ジョブの概要を表示できます。 既定で、グラフにはすべてのジョブが表示されます。 ジョブ IDで、このビューをフィルター処理できます。

  9. 既定で、 [進行状況] 表示が選択されています。 [View](表示) ドロップダウン リストで [Progress](進行状況)/[Read](読み取り)/[Written](書き込み)/[Duration](経過時間) を選ぶことで、データ フローを確認できます。

  10. ジョブを再生するには、 [Playback](再生) ボタンをクリックします。 いつでも [停止] ボタンをクリックして停止できます。

  11. スクロール バーでジョブのグラフを拡大/縮小します。 [Zoom to Fit](画面に合わせて拡大/縮小する) で大きさを画面に合わせることもできます。

完成したジョブのスクリーン ショット。

  1. ジョブ グラフ ノードには、各ステージの次の情報が表示されます。

    • [ジョブ ID]

    • タスク数

    • 経過時間

    • [行数]

    • データ読み取り: 入力サイズとシャッフル読み取りサイズの合計

    • 書き込みデータ: 出力サイズとシャッフル書き込みサイズの合計値

    • ステージ数

      ジョブ グラフ ノードのスクリーンショット。

  2. マウスのポインターをジョブに重ねると、ジョブの詳細がヒントに表示されます。

    • ジョブの状態のアイコン: ジョブの状態が正常であれば、緑色の "√" が表示されます。ジョブに問題が見付かった場合は、黄色の "!" が表示 されます。

    • [ジョブ ID]

    • [General](全般) 欄

      • 進捗状況
      • 経過時間
      • [Total tasks number](合計タスク数)
    • [Data](データ) 欄

      • [Total rows number](合計列数)
      • [Read size](読み取りサイズ)
      • [Written size](書き込みサイズ)
    • [Skew](偏り) 欄

      • データ スキュー
      • 時間のずれ
    • ステージ数

      ヒントのスクリーンショット。ジョブの上にマウス ポインターを置いています。

  3. ステージ数 をクリックして、そのジョブに含まれるすべてのステージを表示します。 ジョブ ID の隣の [Collapse](隠す) をクリックして、そのジョブに含まれるすべてのステージを非表示にします。

  4. ステージのグラフの [View details] (詳細の表示) をクリックすると、ステージの詳細が表示されます。

    展開されているステージのスクリーンショット。

Apache Spark アプリケーションの進行状況を監視する

[モニター] を開き、次に [Apache Spark アプリケーション] を選択します。 実行中の Apache Spark アプリケーションの詳細を表示するには、送信された Apache Spark アプリケーションを選択します。 Apache Spark アプリケーションがまだ実行中の場合は、進捗状況を監視できます。

選択した実行中のジョブのスクリーンショット

  1. 完了したタスク状態、および合計実行時間を確認します。

  2. Apache Spark アプリケーションを [取り消し] ます。

  3. ジョブを更新します。

  4. [Spark UI] ボタンをクリックして、Spark ジョブ ページにアクセスします。

  5. ジョブのグラフ概要分析ログについては、 生成されたジョブ グラフで、ジョブの概要を表示できます。 「完了した Apache Spark アプリケーションを表示する」のステップ 5 - 15 をご覧ください。

実行中のジョブのスクリーンショット。

取り消された Apache Spark アプリケーションを表示する

[モニター] を開き、次に [Apache Spark アプリケーション] を選択します。 取り消された Apache Spark アプリケーションの詳細を表示するには、Apache Spark アプリケーションを選択します。

キャンセルされたジョブのスクリーンショット。

  1. 完了したタスク状態、および合計実行時間を確認します。

  2. ジョブを更新します。

  3. [アプリケーションの比較] をクリックして比較機能を使用します。この機能の詳細については、「Apache Spark アプリケーションの比較」を参照してください。

  4. [Spark History Server] をクリックして、Apache Spark History Server のリンクを開きます。

  5. グラフを表示します。 生成されたジョブ グラフで、ジョブの概要を表示できます。 「完了した Apache Spark アプリケーションを表示する」のステップ 5 - 15 をご覧ください。

キャンセルされたジョブの詳細のスクリーンショット。

失敗した Apache Spark アプリケーションをデバッグする

[モニター] を開き、次に [Apache Spark アプリケーション] を選択します。 失敗した Apache Spark アプリケーションの詳細を表示するには、Apache Spark アプリケーションを選択します。

失敗したジョブのスクリーンショット。

  1. 完了したタスク状態、および合計実行時間を確認します。

  2. ジョブを更新します。

  3. [アプリケーションの比較] をクリックして比較機能を使用します。この機能の詳細については、「Apache Spark アプリケーションの比較」を参照してください。

  4. [Spark History Server] をクリックして、Apache Spark History Server のリンクを開きます。

  5. グラフを表示します。 生成されたジョブ グラフで、ジョブの概要を表示できます。 「完了した Apache Spark アプリケーションを表示する」のステップ 5 - 15 をご覧ください。

失敗したジョブの詳細のスクリーンショット。

入力データ/出力データの表示

Apache Spark アプリケーションを選択して [Input data/Output data](入力データ/出力データ) タブをクリックし、Apache Spark アプリケーションの入力と出力の日付を表示します。 この機能は Spark ジョブのデバッグに役立ちます。 データ ソースは gen1、gen2、blob の 3 種類をサポートしています。

[Input data](出力データ) タブ

  1. [Copy input]\(入力のコピー)\ ボタンをクリックして、入力ファイルをローカルに貼り付けます。

  2. [CSV にエクスポート] ボタンをクリックして、入力ファイルを CSV 形式でエクスポートします。

  3. 検索ボックスの入力キーワードでファイルを検索できます (キーワードには、ファイル名、読み取り形式、パスが含まれます)。

  4. 入力ファイルを並べ替えるには、 [名前][読み取り形式] 、および [パス] をクリックします。

  5. マウスのポインターを入力ファイルに重ねると、ダウンロード、パスのコピー、その他のアイコン が表示されます。

入力タブのスクリーンショット。

  1. [その他] ボタンをクリックします。 [パスのコピー]/[エクスプローラーで表示]/[プロパティ] がコンテキスト メニューに表示されます。

    その他の入力メニューのスクリーンショット。

    • パスのコピー: [完全なパス][相対パス] をコピーできます。

    • エクスプローラーに表示: リンクされたストレージ アカウントに移動できます ([データ] -> [リンク])。

    • プロパティ: ファイルの基本的なプロパティ ([ファイル名]/[ファイルのパス]/[読み取り形式]/[サイズ]/[変更済み]) を表示します。

      プロパティのスクリーンショット。

[Output data](出力データ) タブ

入力タブと同じ機能が表示されます。

出力データのスクリーンショット。

Apache Spark アプリケーションの比較

アプリケーションを比較する 2 つの方法があります。 [Compare Application] (アプリケーションの比較) を選択して比較するか、[Compare in notebook] (ノートブックで比較) ボタンをクリックしてノートブックで表示できます。

アプリケーション別の比較

[アプリケーションの比較] ボタンをクリックし、パフォーマンスを比較するアプリケーションを選択します。 2 つのアプリケーションの違いを確認できます。

アプリケーションの比較のスクリーンショット。

アプリケーションの比較の詳細のスクリーンショット。

  1. マウスを使用してアプリケーションをポイントすると、[アプリケーションの比較] アイコンが表示されます。

  2. [Compare applications](アプリケーションの比較) アイコンをクリックすると、[Compare applications](アプリケーションの比較) ページがポップアップ表示されます。

  3. [アプリケーションの選択] ボタンをクリックして [Choose application](比較対象アプリケーションの選択) ページを開きます。

  4. 比較対象のアプリケーションを選択する場合は、アプリケーションの URL を入力するか、繰り返しの一覧から選択する必要があります。 次に、 [OK] ボタンをクリックします。

    アプリケーションの比較の選択のスクリーンショット。

  5. 比較結果が [compare applications](アプリケーションの比較) ページに表示されます。

    比較の結果のスクリーンショット。

ノートブックで比較

[Compare Application](アプリケーションの比較) ページで [Compare in notebook](ノートブックで比較) ボタンをクリックしてノートブックを開きます。 .ipynb ファイルの既定の名前は Recurrent Application Analytics です。

ノートブックでの比較のスクリーンショット。

Notebook では、Spark プールと言語を設定した後に、Recurrent Application Analytics ファイルを直接実行できます。

Recurrent Application Analytics のスクリーンショット。

次のステップ

パイプラインの実行の監視に関する詳細については、Synapse Studio を使用したパイプラインの実行の監視に関する記事を参照してください。