Synapse Studio를 사용하여 Apache Spark 애플리케이션 모니터링

Azure Synapse Analytics에서 Apache Spark를 사용하여 작업 영역의 Apache Spark 풀에서 Notebook, 작업 및 기타 종류의 애플리케이션을 실행할 수 있습니다.

이 문서에서는 Apache Spark 애플리케이션을 모니터링하여 최신 상태, 문제 및 진행 상황을 파악할 수 있도록 하는 방법을 설명합니다.

Apache Spark 애플리케이션 보기

모든 Apache Spark 애플리케이션은 모니터 ->Apache Spark 애플리케이션에서 볼 수 있습니다.

Screenshot of Apache Spark applications.

완료된 Apache Spark 애플리케이션 보기

모니터를 연 다음, Apache Spark 애플리케이션을 선택합니다. 완료된 Apache Spark 애플리케이션에 대한 세부 정보를 보려면 Apache Spark 애플리케이션을 선택합니다.

Screenshot of completed job details.

  1. 완료된 작업, 상태전체 기간을 확인합니다.

  2. 작업을 새로 고칩니다.

  3. 애플리케이션 비교를 클릭하여 비교 기능을 사용합니다. 이 기능에 대한 자세한 내용은 Apache Spark 애플리케이션 비교를 참조하세요.

  4. Spark 기록 서버를 클릭하여 기록 서버 페이지를 엽니다.

  5. 요약 정보를 확인합니다.

  6. 진단 탭에서 진단을 선택합니다.

  7. 로그를 확인합니다. 드롭다운 목록에서 다른 옵션을 선택하여 Livy, 사전 실행, 드라이버 로그의 전체 로그를 볼 수 있습니다. 또한 키워드를 검색하여 필요한 로그 정보를 직접 검색할 수 있습니다. 로그 다운로드를 클릭하여 로그 정보를 로컬에 다운로드하고 오류 및 경고 필터링 확인란을 선택하여 필요한 오류와 경고를 필터링합니다.

  8. 생성된 작업 그래프에서 작업에 대한 개요를 볼 수 있습니다. 기본적으로 이 그래프는 모든 작업을 표시합니다. 작업 ID를 기준으로 이 뷰를 필터링할 수 있습니다.

  9. 기본적으로 진행률 표시가 선택되어 있습니다. 보기 드롭다운 목록에서 진행률/읽기/쓰기/기간을 선택하여 데이터 흐름을 확인할 수 있습니다.

  10. 작업을 재생하려면 재생 단추를 클릭합니다. 언제든지 중지 단추를 클릭하여 중지할 수 있습니다.

  11. 스크롤 막대를 사용하여 작업 그래프를 확대 및 축소하고 크기에 맞게를 선택하여 화면에 맞출 수도 있습니다.

Screenshot of completed job.

  1. 작업 그래프 노드에는 각 스테이지에 대한 다음 정보가 표시됩니다.

    • 작업 ID

    • 작업 번호

    • 지속 시간

    • 행 수

    • 읽은 데이터: 입력 크기 및 무작위 읽기 크기의 합

    • 쓴 데이터: 출력 크기 및 순서 섞기 쓰기 크기의 합

    • 스테이지 번호

      Screenshot of job graph node.

  2. 작업을 마우스로 가리키면 작업 세부 정보가 도구 설명에 표시됩니다.

    • 작업 상태 아이콘: 작업 상태가 성공이면 녹색 "√"로 표시되고, 작업에서 문제가 검색되면 노란색 "!" 표시됩니다.

    • 작업 ID

    • 일반 파트:

      • 진행률
      • 지속 시간
      • 총 작업 수
    • 데이터 파트:

      • 총 행 수
      • 읽은 크기
      • 쓴 크기
    • 기울이기 파트:

      • 데이터 기울이기
      • 시간 기울이기
    • 스테이지 번호

      Screenshot of tooltip hovering over a job.

  3. 스테이지 번호를 클릭하여 작업에 포함된 모든 스테이지를 확장합니다. 작업 ID 옆의 축소를 클릭하여 작업의 모든 스테이지를 축소합니다.

  4. 스테이지 그래프에서 세부 정보 보기를 클릭하면 스테이지에 대한 세부 정보가 나타납니다.

    Screenshot of stages expanded.

Apache Spark 애플리케이션 진행률 모니터링

모니터를 연 다음, Apache Spark 애플리케이션을 선택합니다. 실행 중인 Apache Spark 애플리케이션에 대한 세부 정보를 보려면 제출된 Apache Spark 애플리케이션을 선택합니다. Apache Spark 애플리케이션이 여전히 실행 중인 경우 진행률을 모니터링할 수 있습니다.

Screenshot of selected running job

  1. 완료된 작업, 상태전체 기간을 확인합니다.

  2. Apache Spark 애플리케이션을 취소합니다.

  3. 작업을 새로 고칩니다.

  4. Spark UI 단추를 클릭하여 Spark 작업 페이지로 이동합니다.

  5. 작업 그래프, 요약, 진단, 로그의 경우 생성된 작업 그래프에서 작업에 대한 개요를 볼 수 있습니다. 완료된 Apache Spark 애플리케이션 보기의 5~15단계를 참조하세요.

Screenshot of running job.

취소된 Apache Spark 애플리케이션 보기

모니터를 연 다음, Apache Spark 애플리케이션을 선택합니다. 취소된 Apache Spark 애플리케이션에 대한 세부 정보를 보려면 Apache Spark 애플리케이션을 선택합니다.

Screenshot of canceled job.

  1. 완료된 작업, 상태전체 기간을 확인합니다.

  2. 작업을 새로 고칩니다.

  3. 애플리케이션 비교를 클릭하여 비교 기능을 사용합니다. 이 기능에 대한 자세한 내용은 Apache Spark 애플리케이션 비교를 참조하세요.

  4. Spark 기록 서버를 클릭하여 Apache 기록 서버 링크를 엽니다.

  5. 그래프를 봅니다. 생성된 작업 그래프에서 작업에 대한 개요를 볼 수 있습니다. 완료된 Apache Spark 애플리케이션 보기의 5~15단계를 참조하세요.

Screenshot of canceled job details.

실패한 Apache Spark 애플리케이션 디버그

모니터를 연 다음, Apache Spark 애플리케이션을 선택합니다. 실패한 Apache Spark 애플리케이션에 대한 세부 정보를 보려면 Apache Spark 애플리케이션을 선택합니다.

Screenshot of failed job.

  1. 완료된 작업, 상태전체 기간을 확인합니다.

  2. 작업을 새로 고칩니다.

  3. 애플리케이션 비교를 클릭하여 비교 기능을 사용합니다. 이 기능에 대한 자세한 내용은 Apache Spark 애플리케이션 비교를 참조하세요.

  4. Spark 기록 서버를 클릭하여 Apache 기록 서버 링크를 엽니다.

  5. 그래프를 봅니다. 생성된 작업 그래프에서 작업에 대한 개요를 볼 수 있습니다. 완료된 Apache Spark 애플리케이션 보기의 5~15단계를 참조하세요.

Screenshot of failed job details.

입력 데이터/출력 데이터 보기

Apache Spark 애플리케이션을 선택하고 입력 데이터/출력 데이터 탭을 클릭하여 Apache Spark 애플리케이션의 입력과 출력 날짜를 봅니다. 이 기능은 Spark 작업을 디버그하는 데 도움이 될 수 있습니다. 또한 데이터 원본은 gen1, gen2, blob의 세 가지 저장 방법을 지원합니다.

입력 데이터 탭

  1. 입력 복사 단추를 클릭하여 입력 파일을 로컬에 붙여넣습니다.

  2. CSV로 내보내기 단추를 클릭하여 입력 파일을 CSV 형식으로 내보냅니다.

  3. 검색 상자에서 입력 키워드로 파일을 검색할 수 있습니다(키워드에는 파일 이름, 읽기 형식, 경로가 포함됨).

  4. 이름, 읽기 형식, 경로를 클릭하여 입력 파일을 정렬할 수 있습니다.

  5. 입력 파일을 마우스로 가리키면 다운로드/경로 복사/자세히 단추의 아이콘이 나타납니다.

Screenshot of input tab.

  1. 자세히 단추를 클릭합니다. 복사 경로/탐색기에 표시/속성이 바로 가기 메뉴에 나타납니다.

    Screenshot of more input menu.

    • 경로 복사: 전체 경로상대 경로를 복사할 수 있습니다.

    • 탐색기에 표시: 연결된 스토리지 계정(데이터->연결됨)으로 이동할 수 있습니다.

    • 속성: 파일의 기본 속성(파일 이름/파일 경로/읽기 형식/크기/수정됨)을 표시합니다.

      Screenshot of properties.

출력 데이터 탭

입력 탭과 동일한 기능을 표시합니다.

Screenshot of output data.

Apache Spark 애플리케이션 비교

애플리케이션을 비교하는 방법에는 두 가지가 있습니다. 애플리케이션 비교를 선택하거나 Notebook에서 비교 단추를 클릭하여 Notebook에서 볼 수 있습니다.

애플리케이션별 비교

애플리케이션 비교 단추를 클릭하고 애플리케이션을 선택하여 성능을 비교합니다. 두 애플리케이션 간의 차이점을 확인할 수 있습니다.

Screenshot of compare applications.

Screenshot of details to compare applications.

  1. 마우스를 애플리케이션 위로 가져가면 애플리케이션 비교 아이콘이 표시됩니다.

  2. 애플리케이션 비교 아이콘을 클릭하면 애플리케이션 비교 페이지가 팝업됩니다.

  3. 애플리케이션 선택 단추를 클릭하여 비교 애플리케이션 선택 페이지를 엽니다.

  4. 비교 애플리케이션을 선택할 때 애플리케이션 URL을 입력하거나 되풀이 목록에서 선택해야 합니다. 그런 후 확인 단추를 클릭합니다.

    Screenshot of choose comparison application.

  5. 비교 결과는 애플리케이션 비교 페이지에 표시됩니다.

    Screenshot of comparison result.

Notebook에서 비교

애플리케이션 비교 페이지에서 Notebook에서 비교 단추를 클릭하여 Notebook을 엽니다. .ipynb 파일의 기본 이름은 Recurrent Application Analytics입니다.

Screenshot of compare in notebook.

Notebook: Recurrent Application Analytics 파일에서 Spark 풀 및 언어를 설정한 후 바로 실행할 수 있습니다.

Screenshot of recurrent application analytics.

다음 단계

파이프라인 실행을 모니터링하는 방법에 대한 자세한 내용은 Synapse Studio에서 파이프라인 실행 모니터링 문서를 참조하세요.