Metrics Advisor를 사용하여 인시던트 진단

Important

2023년 9월 20일부터 새로운 Metrics Advisor 리소스를 만들 수 없습니다. Metrics Advisor 서비스는 2026년 10월 1일에 사용 중지됩니다.

인시던트란?

특정 타임스탬프의 여러 시계열에서 한 메트릭 내 변칙이 검색되는 경우 Metrics Advisor는 동일한 근본 원인을 공유하는 변칙을 하나의 인시던트에 자동으로 그룹화합니다. 인시던트는 일반적으로 실제 문제를 나타내며, Metrics Advisor는 인시던트를 분석하고 자동 근본 원인 분석 인사이트를 제공합니다.

이렇게 하면 개별 변칙을 살펴보고 문제에 기여하는 가장 중요한 요소를 빠르게 찾아야 하는 고객의 수고가 훨씬 줄어듭니다.

Metrics Advisor에서 생성된 경고에는 여러 인시던트가 포함될 수 있고, 각 인시던트에는 동일한 타임스탬프의 여러 시계열에서 캡처된 여러 변칙이 포함될 수 있습니다.

인시던트 진단 경로

  • 경고 알림에서 진단

    메일/Teams 형식의 후크를 구성하고 하나 이상의 경고 구성을 적용한 경우 Metrics Advisor에서 분석된 인시던트를 에스컬레이션하는 지속적인 경고 알림을 받게 됩니다. 알림 내에는 인시던트 목록과 간략한 설명이 있습니다. 각 인시던트에 대한 “진단” 단추가 있으며, 단추를 선택하면 진단 인사이트를 볼 수 있는 인시던트 세부 정보 페이지로 이동합니다.

    경고 알림에서 진단

  • “인시던트 허브”의 인시던트에서 진단

    Metrics Advisor에는 캡처된 모든 인시던트를 수집하고 진행 중인 문제를 쉽게 추적할 수 있게 해주는 중앙 위치가 있습니다. 왼쪽 탐색 모음에서 인시던트 허브 탭을 선택하면 선택한 메트릭 내의 모든 인시던트가 나열됩니다. 인시던트 목록 내에서 인시던트 중 하나를 선택하여 자세한 진단 인사이트를 살펴봅니다.

    인시던트 허브에서 인시던트 진단

  • 메트릭 페이지에 나열된 인시던트에서 진단

    메트릭 세부 정보 페이지에는 이 메트릭에 대해 캡처된 최신 인시던트를 나열하는 인시던트 탭이 있습니다. 인시던트 심각도나 메트릭의 차원 값으로 목록을 필터링할 수 있습니다.

    목록에서 인시던트 하나를 선택하면 진단 인사이트를 볼 수 있는 인시던트 세부 정보 페이지로 이동됩니다.

    메트릭 페이지에 나열된 인시던트에서 진단

일반적인 진단 흐름

인시던트 세부 정보 페이지로 이동된 후 Metrics Advisor에서 자동으로 분석된 인사이트를 활용하여 문제의 근본 원인을 빠르게 찾거나 분석 도구를 사용하여 문제 영향을 추가로 평가할 수 있습니다. 인시던트 세부 정보 페이지에는 인시던트 진단의 세 가지 주요 단계에 해당하는 세 가지 섹션이 있습니다.

1단계: 현재 인시던트 요약 확인

첫 번째 섹션에는 기본 정보, 작업 및 추적, 분석된 근본 원인을 포함하여 현재 인시던트의 요약이 나열됩니다.

  • 기본 정보에는 “영향을 받는 상위 계열”과 다이어그램, “영향 시작 및 종료 시간”, “인시던트 심각도”, “포함된 총 변칙 수”가 포함됩니다. 이 정보를 읽으면 진행 중인 문제와 문제 영향의 기본 사항을 파악할 수 있습니다.

  • 작업 및 추적은 진행 중인 인시던트에 대한 팀 협업을 지원하는 데 사용됩니다. 한 인시던트를 분석하고 해결하기 위해 전체 팀원의 노력이 필요한 경우도 있습니다. 인시던트를 볼 수 있는 권한만 있으면 누구든지 작업이나 추적 이벤트를 추가할 수 있습니다.

    예를 들어 인시던트를 진단하고 근본 원인이 식별된 후 엔지니어가 “사용자 지정” 유형의 추적 항목을 추가하고 주석 섹션에 근본 원인을 입력할 수 있습니다. 상태는 “활성”으로 그대로 둡니다. 그러면 다른 팀원이 동일한 정보를 공유하고 누군가가 수정 작업을 수행하고 있음을 알 수 있습니다. “Azure DevOps” 항목을 추가하여 특정 작업이나 버그가 있는 인시던트를 추적할 수도 있습니다.

  • 분석된 근본 원인이 자동 분석 결과입니다. Metrics Advisor는 동일한 타임스탬프의 여러 시계열에서 캡처된, 다양한 차원 값이 있는 한 메트릭 내 모든 변칙을 분석합니다. 그런 다음, 상관 관계를 파악하고 클러스터링을 통해 관련 변칙을 그룹화하고 근본 원인 조언을 생성합니다.

인시던트 요약

여러 차원이 있는 메트릭에서는 동시에 여러 변칙이 검색되는 경우가 많습니다. 그러나 이러한 변칙은 동일한 근본 원인을 공유할 수 있습니다. 모든 변칙을 하나씩 분석하는 대신 분석된 근본 원인을 활용하는 것이 현재 인시던트를 진단하는 가장 효율적인 방법입니다.

2단계: 차원 간 진단 인사이트 보기

기본 정보와 자동 분석 인사이트를 가져온 후 “진단 트리”를 사용하여 전체적인 방식으로 동일한 메트릭 내 다른 차원의 비정상 상태에 대한 자세한 정보를 얻을 수 있습니다.

여러 차원이 있는 메트릭의 경우 Metrics Advisor에서 시계열을 진단 트리라는 계층 구조로 분류합니다. 예를 들어 “revenue” 메트릭은 “region”과 “category”라는 두 가지 차원에서 모니터링됩니다. 구체적인 차원 값뿐 아니라 “SUM”과 같은 집계된 차원 값도 있어야 합니다. 그런 다음, “region” = “SUM” 및 “category” = “SUM”의 시계열이 트리 내 루트 노드로 분류됩니다. “SUM” 차원에 캡처된 변칙이 있을 때마다 드릴다운하고 분석하여 부모 노드 변칙에 가장 많이 기여한 특정 차원 값을 찾을 수 있습니다. 각 노드를 선택하여 펼치고 자세한 정보를 확인합니다.

진단 트리를 사용한 차원 간 진단

  • 메트릭에서 “집계” 차원 값을 사용하려는 경우

    Metrics Advisor는 차원에서 “롤업”을 수행하여 “집계” 차원 값을 계산할 수 있도록 지원합니다. 진단 트리는 “SUM”, “AVG”, “MAX”, “MIN”, “COUNT” 집계에 대한 진단을 지원합니다. “집계” 차원 값을 사용하려면 데이터 온보딩 중에 “롤업” 기능을 사용하도록 설정합니다. 메트릭이 수학적으로 계산 가능하고 집계 차원에 실제 비즈니스 값이 있는지 확인합니다.

    롤업 설정

  • 메트릭에 “집계” 차원 값이 없는 경우

    메트릭에 “집계” 차원 값이 없고 데이터 온보딩 중에 “롤업” 기능을 사용하도록 설정하지 않은 경우, “집계” 차원에 대해 계산된 메트릭 값이 없으므로 트리에 회색 노드로 표시됩니다. 노드를 펼치면 자식 노드를 볼 수 있습니다.

진단 트리의 범례

진단 트리에는 다음 세 종류의 노드가 있습니다.

  • 파란색 노드 - 실제 메트릭 값이 있는 시계열에 해당합니다.
  • 회색 노드 - 메트릭 값이 없는 가상 시계열에 해당하며 논리 노드입니다.
  • 빨간색 노드 - 현재 인시던트의 영향을 받는 상위 시계열에 해당합니다.

각 노드의 비정상 상태는 노드 테두리 색으로 설명됩니다.

  • 빨간색 테두리 - 인시던트 타임스탬프에 해당하는 시계열에서 캡처된 변칙이 있습니다.
  • 빨간색이 아닌 테두리 - 인시던트 타임스탬프에 해당하는 시계열에서 캡처된 변칙이 없습니다.

표시 모드

진단 트리에는 변칙 계열만 표시하거나 높은 비율을 표시하는 두 가지 디스플레이 모드가 있습니다.

  • 변칙 계열만 표시 모드에서는 고객이 다양한 계열에서 캡처된 현재 변칙에 집중하고 영향을 받는 상위 계열의 근본 원인을 진단할 수 있습니다.
  • 높은 비율 표시 모드에서는 고객이 높은 비율로 영향을 받는 상위 계열의 비정상 상태를 확인할 수 있습니다. 이 모드의 트리에는 변칙이 검색된 계열과 변칙이 없는 계열이 모두 표시됩니다. 하지만 중요한 계열에 더 중점을 둡니다.

분석 옵션

  • 델타 비율 표시

    “델타 비율”은 부모 노드 델타 대비 현재 노드 델타의 백분율입니다. 수식은 다음과 같습니다.

    (현재 노드의 실제 값 - 현재 노드의 예상 값) / (부모 노드의 실제 값 - 부모 노드의 예상 값) * 100%

    이 비율은 부모 노드 델타의 주요 기여를 분석하는 데 사용됩니다.

  • 값 비율 표시

    “값 비율”은 부모 노드 값 대비 현재 노드 값의 백분율입니다. 수식은 다음과 같습니다.

    (현재 노드의 실제 값 / 부모 노드의 실제 값) * 100%

    이 비율은 전체에서 현재 노드의 비율을 평가하는 데 사용됩니다.

고객은 “진단 트리”를 사용하여 특정 차원에 대한 현재 인시던트의 근본 원인을 찾을 수 있습니다. 이렇게 하면 변칙에 기여하는 중요한 요소를 찾기 위해 각 개별 변칙을 살펴보거나 다양한 차원을 피벗해야 하는 고객의 수고가 훨씬 줄어듭니다.

3단계: “메트릭 그래프”를 사용하여 메트릭 간 진단 인사이트 보기

단일 메트릭의 비정상 상태를 확인하여 문제를 분석하기 어렵고 여러 메트릭의 상관 관계를 파악해야 하는 경우도 있습니다. 고객은 메트릭 간 관계를 나타내는 메트릭 그래프를 구성할 수 있습니다. 시작하려면 메트릭 그래프를 빌드하는 방법을 참조하세요.

“메트릭 그래프” 내의 근본 원인 차원에서 변칙 상태 확인

위의 차원 간 진단 결과를 사용하면 근본 원인이 특정 차원 값으로 제한됩니다. 그런 다음, “메트릭 그래프”를 사용하고 분석된 근본 원인 차원으로 필터링하여 다른 메트릭의 변칙 상태를 확인합니다.

예를 들어 “revenue” 메트릭에서 캡처된 인시던트가 있는 경우입니다. 영향을 받는 상위 계열은 “region” = “SUM”인 글로벌 지역에 있습니다. 차원 간 진단을 사용하면 “region” = “Karachi”에 근본 원인이 있었습니다. “revenue”, “cost”, “DAU”, “PLT(페이지 로드 시간)”, “CHR(캐시 적중률)” 메트릭을 포함하는 미리 구성된 메트릭 그래프가 있습니다.

Metrics Advisor는 “region” = “Karachi”의 근본 원인 차원으로 메트릭 그래프를 자동으로 필터링하고 각 메트릭의 변칙 상태를 표시합니다. 고객은 메트릭과 변칙 상태 간 관계를 분석하여 최종 근본 원인에 대한 추가 인사이트를 얻을 수 있습니다.

교차 메트릭 분석

메트릭 그래프에 근본 원인 차원 필터를 적용하면 현재 인시던트의 타임스탬프에서 각 메트릭의 변칙이 자동 관련됩니다. 해당 변칙은 현재 인시던트의 식별된 근본 원인과 관련되어야 합니다.

자동 관련 변칙

다음 단계