생성 AI 애플리케이션 평가

아티클
09/03/2024

Important

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Azure OpenAI Service를 통한 GPT-4와 같은 언어 모델의 발전은 책임 있는 AI와 관련된 과제와 함께 큰 약속을 제공합니다. 신중하게 설계되지 않은 경우 이러한 모델을 기반으로 하는 시스템은 기존의 사회적 편견을 영속하거나, 잘못된 정보를 홍보하거나, 조작 콘텐츠를 만들거나, 다양한 다른 부정적인 영향을 초래할 수 있습니다. 사용자에게 혜택을 극대화하면서 이러한 위험을 해결하는 것은 4단계(식별, 측정 및 완화, 운영)를 통한 반복적인 접근 방식으로 가능합니다.

측정 단계는 품질과 안전을 향한 조향 개발에 중요한 정보를 제공합니다. 한편으로는 성능 및 품질 평가가 포함됩니다. 반면, 위험 및 안전성을 평가할 때 다양한 위험에 대한 AI 시스템의 경향 평가가 포함됩니다(각각 심각도가 다를 수 있습니다). 두 경우 모두 명확한 메트릭을 설정하고, 테스트 집합을 만들고, 반복적이고 체계적인 테스트를 완료하여 이 작업을 수행합니다. 이 측정 단계에서는 프롬프트 엔지니어링 및 콘텐츠 필터 적용과 같은 대상 완화 단계를 알리는 신호를 실무자에게 제공합니다. 완화가 적용되면 평가를 반복하여 효율성을 테스트할 수 있습니다.

Azure AI 스튜디오는 측정 단계에 도움이 될 수 있는 수동 및 자동화된 평가를 위한 도구를 실무자에게 제공합니다. 수동 평가부터 시작한 다음 자동화된 평가를 진행하는 것이 좋습니다. 수동 평가, 즉 애플리케이션의 생성된 출력을 수동으로 검토하면 소규모 우선 순위 문제 집합의 진행률을 추적하는 데 유용합니다. 특정 위험을 완화할 때 자동 평가로 이동하기 전에 위험의 근거가 더 이상 관찰되지 않을 때까지 작은 데이터 세트에 대한 진행률을 수동으로 검사하는 것이 가장 생산적인 경우가 많습니다. Azure AI 스튜디오는 작은 데이터 세트를 스폿 검사하기 위한 수동 평가 환경을 지원합니다.

자동 평가는 범위를 늘려서 보다 포괄적인 결과를 제공할 수 있는 품질 및 안전 측정에 유용합니다. 또한 자동화된 평가 도구를 사용하면 시스템, 사용량 및 완화 조치가 진화함에 따라 주기적으로 실행되어 회귀를 모니터링하는 지속적인 평가를 수행할 수 있습니다. 생성 AI 애플리케이션의 자동 평가 방법으로 두 가지가 지원되는데, 하나는 기존의 기계 학습 평가이고 다른 하나는 AI 지원 평가입니다.

기존의 기계 학습 측정

생성형 AI의 컨텍스트에서 기존 기계 학습 평가(기존 기계 학습 메트릭 생성)는 예상 답변에 비해 생성된 출력의 정확도를 정량화하려는 경우에 유용합니다. 기존의 메트릭은 참값과 예상 답변에 액세스할 수 있는 경우에 유용합니다.

참값은 우리가 참으로 알고 있는 데이터를 의미하므로 비교를 위한 기준으로 사용합니다.
예상 답변은 참값 데이터를 기반으로 나타날 것으로 믿는 결과입니다. 예를 들어 일반적으로 정답 또는 예상 답변이 하나 있는 분류 또는 짧은 형식의 질문 답변과 같은 작업에서 F1 점수 또는 유사한 기존 메트릭을 사용하여 예상된 답변에 대한 생성된 출력의 정밀도와 재현율을 특정할 수 있습니다.

기존 메트릭은 생성된 출력이 회귀하는 정도, 즉 예상 답변에서 벗어나는 정도를 이해하려는 경우에도 유용합니다. 오차 또는 편차의 정량적 측정값을 제공하므로 시간이 지남에 따라 시스템 성능을 추적하거나 다른 시스템의 성능을 비교할 수 있습니다. 그러나 이러한 메트릭은 일반적으로 예상 답변의 편차를 오류로 처리하므로 창의성, 모호성 또는 여러 가지 올바른 솔루션을 포함하는 작업에는 적합하지 않을 수 있습니다.

AI 지원 평가

GPT-4와 같은 LLM(대규모 언어 모델)을 사용하여 생성 AI 언어 시스템의 출력을 평가할 수 있습니다. 이는 LLM에 AI가 생성한 결과물의 특정 측면에 주석을 달도록 지시함으로써 달성할 수 있습니다. 예를 들어 GPT-4에 관련성 심각도 배율(예: 1~5 배율의 관련성 주석 기준 제공)을 제공한 다음 GPT-4에 지정된 질문에 대한 AI 시스템 응답의 관련성에 주석을 달도록 요청할 수 있습니다.

AI 지원 평가는 참값 및 예상 답변을 이용할 수 없는 시나리오에서 도움이 될 수 있습니다. 개방형 질문 답변 또는 창의적인 쓰기와 같은 많은 생성형 AI 작업에서는 하나의 정답이 없으므로 기존 메트픽에 필요한 참값 또는 예상 답변을 설정하기가 어려울 수 있습니다.

이러한 경우 AI 지원 평가는 생성된 출력의 품질 및 안전성과 같은 중요한 개념을 측정하는 데 도움이 될 수 있습니다. 여기서 품질은 관련성, 일관성, 유창성 및 근거성과 같은 성능 및 품질 특성을 나타냅니다. 안전은 유해한 콘텐츠(콘텐츠 위험)의 존재와 같은 위험 및 안전 특성을 의미합니다.

이러한 각 특성에 대해 LLM의 지침 및 심각도 배율을 만들려면 신중한 개념화와 실험이 필요합니다. 경우에 따라 이러한 특성은 다른 사람들이 다르게 볼 수 있는 복잡한 사회 기술 개념을 참조합니다. 따라서 LLM의 주석 지침은 합의된 구체적인 특성 정의를 나타낼 목적으로 만들어지는 것이 중요합니다. 그런 다음 LLM이 사용자 전문가 주석과 일치하는 방식으로 지침을 적용하도록 하는 것이 중요합니다.

LLM에 이러한 특성에 주석을 달도록 지시하면 하나의 정답이 없는 경우에도 생성형 AI가 얼마나 잘 작동하는지에 대한 메트릭을 빌드할 수 있습니다. AI 지원 평가는 특히 창의성, 모호성 또는 여러 가지 올바른 솔루션을 포함하는 작업에서 생성 AI 애플리케이션을 평가하는 유연하고 미묘한 방법을 제공합니다. 그러나 이러한 평가의 신뢰도와 유효성은 LLM의 품질 및 해당 메트릭에 지정된 지침에 따라 달라집니다.

AI 지원 성능 및 품질 메트릭

AI 지원 성능 및 품질 평가를 실행하기 위해 LLM은 두 개의 별도 함수에 활용될 수 있습니다. 먼저 테스트 데이터 세트를 만들어야 합니다. 프롬프트를 선택하고 AI 시스템에서 응답을 캡처하여 수동으로 만들거나 AI 시스템과 LLM 간의 상호 작용을 시뮬레이션하여 가상으로 만들 수 있습니다(다음 다이어그램에서 AI 지원 데이터 세트 생성기라고 함). 그런 다음 LLM을 사용하여 테스트 집합의 AI 시스템’출력에 주석을 추가합니다. 마지막으로 주석은 성능 및 품질 메트릭으로 집계되고 보기 및 분석을 위해 AI Studio 프로젝트에 기록됩니다.

참고 항목

현재는 AI 지원 평가를 위한 모델로 GPT-4 및 GPT-3을 지원합니다. 평가에 이러한 모델을 이용하려면 유효한 연결을 설정해야 합니다. 상황에 맞는 이해와 지침 준수가 크게 향상되므로 GPT-4를 사용하는 것이 좋습니다.

AI 지원 위험 및 안전 메트릭

AI 지원 품질 및 성능 평가의 한 가지 목적은 AI 지원 위험 및 안전 메트릭을 만드는 것입니다. AI 지원 위험 및 안전 메트릭을 만들기 위해 Azure AI 스튜디오 안전 평가는 백 엔드 서비스에서 호스트되는 Azure OpenAI GPT-4 모델을 프로비전한 다음 두 LLM 종속 단계를 각각 오케스트레이션합니다.

생성형 AI 시스템을 사용한 적대적인 상호 작용 시뮬레이션:

유해한 응답을 생성하도록 대상으로 지정된 프롬프트에서 안내하는 단일 턴 또는 멀티 턴 교환을 시뮬레이션하여 입력 및 응답의 고품질 테스트 데이터 세트를 생성합니다. 
콘텐츠 또는 보안 위험에 대한 테스트 데이터 세트에 주석을 추가합니다.

각 유형의 콘텐츠 및 보안 위험에 대해 정의된 심각도 배율에서 파생된 심각도와 추론을 사용하여 테스트 데이터 세트의 각 상호 작용에 주석을 추가합니다.

프로비전된 GPT-4 모델은 적대적인 데이터 세트 생성기 또는 주석 처리기 역할을 하므로 해당 안전 필터는 꺼지고 모델이 백 엔드 서비스에서 호스트됩니다. 이러한 LLM 및 대상이 지정된 적대적 프롬프트 데이터 세트에 사용되는 프롬프트도 서비스에서 호스트됩니다. LLM을 통해 생성되고 전달되는 콘텐츠의 중요한 특성으로 인해 모델 및 데이터 자산은 Azure AI 스튜디오 고객이 직접 액세스할 수 없습니다.

대상이 지정된 적대적인 프롬프트 데이터 세트는 Microsoft 연구원, 신청한 과학자, 언어학자, 보안 전문가가 개발하여 사용자가 생성형 AI 시스템의 콘텐츠 및 보안 위험을 평가하는 데 도움을 줍니다.

입력 프롬프트 및 AI 시스템 응답(예: 레드 팀의 레코드)이 포함된 테스트 데이터 세트가 이미 있는 경우 콘텐츠 위험 평가자가 주석을 추가하도록 해당 데이터 세트를 직접 전달할 수 있습니다. 안전 평가는 레드 팀이 대규모로 적대적 프롬프트를 생성하고 자동화할 수 있도록 하여 수동 레드 팀 활동을 보강하고 가속화하는 데 도움이 될 수 있습니다. 그러나 AI 지원 평가는 사용자 검토를 대체하거나 가능한 모든 위험에 대한 포괄적인 범위를 제공하도록 설계되지 않았습니다.

탈옥 취약성 평가

콘텐츠 위험과 달리 탈옥 취약성은 LLM에서 직접 주석으로 안정적으로 측정할 수 없습니다. 하지만 탈옥 취약성은 두 개의 병렬 테스트 데이터 셋 비교를 통해 측정할 수 있습니다. 즉, 기본 적대 테스트 데이터 세트와 첫 번째 탈옥 주입이 포함된 동일한 적대적 테스트 데이터 세트입니다. 각 데이터 세트는 AI 지원 콘텐츠 위험 평가기에서 주석을 추가하여 각각에 대한 콘텐츠 위험 결함률을 생성할 수 있습니다. 그런 다음 사용자는 결함률을 비교하고 탈옥 데이터 세트의 심각도 결함이 더 많거나 더 높아진 사례를 기록하여 탈옥 취약성을 평가합니다. 예를 들어 이러한 병렬 테스트 데이터 세트의 인스턴스에 탈옥 주입이 있는 버전에 대해 더 심각한 주석이 추가된 경우 해당 인스턴스는 탈옥 결함으로 간주됩니다.

지원되는 작업 유형 및 기본 제공 메트릭에 대해 자세히 알아보려면 생성 AI에 대한 평가 및 모니터링 메트릭을 참조하세요.