Azure Portal을 사용하여 Azure Cosmos DB for PostgreSQL의 메트릭에 대한 경고 설정

아티클
08/15/2024

적용 대상: Azure Cosmos DB for PostgreSQL(PostgreSQL에 대한 Citus 데이터베이스 확장 기반)

이 문서에서는 Azure Portal을 사용하여 Azure Cosmos DB for PostgreSQL 경고를 설정하는 방법을 보여 줍니다. Azure 서비스에 대한 모니터링 메트릭을 기반으로 하는 경고를 받을 수 있습니다.

지정된 메트릭의 값이 임계값을 초과하는 경우 트리거되는 경고를 설정합니다. 이 경고는 조건이 처음 충족될 때 트리거되고, 이후에도 계속 트리거됩니다.

트리거되면 다음 작업을 수행하도록 경고를 구성할 수 있습니다.

서비스 관리자 및 공동 관리자에게 이메일 알림을 보냅니다.
사용자가 지정한 추가 메일 주소로 메일을 보냅니다.
Webhook를 호출합니다.

다음을 통해 경고에 대한 정보를 구성하고 가져올 수 있습니다.

Azure Portal에서 메트릭에 대한 경고 규칙 만들기

Azure Portal에서 모니터링할 Azure Cosmos DB for PostgreSQL 서버를 선택합니다.
사이드바의 모니터링 섹션에서 경고를 선택한 다음, 만들기 또는 경고 규칙 만들기를 선택합니다.
신호 선택 화면이 열립니다. 신호 목록에서 경고를 발생할 메트릭을 선택합니다. 이 예제에서는 스토리지 비율을 선택합니다.
경고 규칙 만들기 페이지의 조건 탭에 있는 경고 논리에서 다음 항목을 완료합니다.
- 임계값에 대해 정적을 선택합니다.
- 집계 유형에서 평균을 선택합니다.
- 연산자에 대해 보다 큼을 선택합니다.
- 임계값에 85를 입력합니다.
작업 탭을 선택한 다음, 작업 그룹 만들기를 선택하여 경고에 대한 알림을 받을 새 그룹을 만듭니다.
작업 그룹 만들기 양식에서 구독, 리소스 그룹 및 지역을 선택하고 그룹의 이름과 표시 이름을 입력합니다.
페이지 아래쪽에 있는 다음: 알림을 선택합니다.
알림 탭의 알림 유형에서 Email/SMS 메시지/푸시/음성을 선택합니다.
Email/SMS 메시지/푸시/음성 양식에서 원하는 알림 유형 및 수신자의 이메일 주소와 전화 번호를 입력한 다음, 확인을 선택합니다.
작업 그룹 만들기 양식에서 새 알림의 이름을 입력합니다.
검토 + 만들기를 선택한 다음, 만들기를 선택하여 작업 그룹을 만듭니다. 새 작업 그룹이 만들어지고 경고 규칙 만들기 페이지의 작업 탭에 있는 작업 그룹 이름 아래에 표시됩니다.
페이지 아래쪽의 다음: 세부 정보를 선택합니다.
세부 정보 탭에서 규칙의 심각도를 선택합니다. 규칙에 쉽게 식별할 수 있는 이름을 지정하고 선택적 설명을 추가합니다.
검토 + 만들기를 선택한 다음, 만들기를 선택하여 경고를 만듭니다. 앞서 설명한 대로 몇 분 안에 경고가 활성화 및 트리거됩니다.

경고 관리

경고가 만들어지면 해당 경고를 선택하고, 다음 작업을 수행할 수 있습니다.

이 경고와 관련된 전날의 메트릭 임계값 및 실제 값을 표시하는 그래프 확인.
경고 규칙을 편집 또는 삭제.
알림 수신을 일시적으로 중지하거나 다시 시작하려면 경로를 사용 안 함 또는 사용으로 설정.

제안되는 경고

다음은 설정할 제안된 경고의 몇 가지 예입니다.

디스크 공간

모니터링 및 경고는 모든 프로덕션 클러스터에 중요합니다. 기본 PostgreSQL 데이터베이스가 제대로 작동하려면 사용 가능한 디스크 공간이 필요합니다. 디스크가 가득 차면 데이터베이스 서버 노드가 오프라인 상태가 되고 공간을 사용할 수 있을 때까지 시작이 거부됩니다. 이 시점에서 상황을 해결하려면 Microsoft 지원 요청이 필요합니다.

프로덕션 이외의 용도로도 모든 클러스터의 모든 노드에 대한 디스크 공간 경고를 설정하는 것이 좋습니다. 디스크 공간 사용량 경고는 노드에 개입하여 정상 상태로 유지하는 데 필요한 사전 경고를 제공합니다. 최상의 결과를 얻으려면 75%, 85% 및 95%의 사용량에서 일련의 경고를 시도합니다. 빠른 데이터 수집은 디스크를 더 빨리 채우므로 선택할 백분율은 데이터 수집 속도에 따라 달라집니다.

디스크가 공간 제한에 도달하면 다음 기술을 시도하여 더 많은 사용 가능한 공간을 확보합니다.

데이터 보존 정책을 검토합니다. 가능한 경우 오래된 데이터를 콜드 스토리지로 이동합니다.
클러스터에 노드를 추가하고, 분할된 데이터베이스의 균형을 재조정하는 것이 좋습니다. 균형을 재조정하면 데이터를 더 많은 컴퓨터에 분산시킵니다.
작업자 노드의 용량을 확장하는 것이 좋습니다. 각 작업자에는 최대 2TiB의 스토리지가 있을 수 있습니다. 그러나 노드 추가가 더 빨리 완료되므로 노드 크기를 조정하기 전에 노드를 추가해야 합니다.

CPU 사용량

CPU 사용량 모니터링은 성능 기준을 설정하는 데 유용합니다. 예를 들어 CPU 사용량이 일반적으로 약 40~60%임을 알 수 있습니다. CPU 사용량이 갑자기 약 95%를 가리키기 시작하면 변칙을 인식할 수 있습니다. CPU 사용량은 유기적 증가를 반영할 수 있지만, 잘못된 쿼리를 나타낼 수도 있습니다. CPU 경고를 만들 때 장기적 증가를 포착하고 일시적 급증을 무시하도록 장기 집계 세분성을 설정합니다.

다음 단계

경고에서의 webhook 구성에 대해 자세히 알아봅니다.
서비스를 사용 가능하며 응답할 수 있는 상태로 유지하기 위한 메트릭 수집 의 개요를 살펴봅니다.

다음을 통해 공유