eDiscovery(미리 보기) 사례의 검색 및 분석 설정에 대해 알아보기

아티클
07/27/2024

각 eDiscovery(미리 보기) 사례에 대한 설정을 구성하여 다음 기능을 제어할 수 있습니다.

근사 중복 및 전자 메일 스레드
테마
자동 재생 검토 설정 쿼리
텍스트 무시
광학 문자 인식

팁

보안용 Microsoft Copilot를 시작하여 AI의 힘을 사용하여 더 스마트하고 빠르게 작업하는 새로운 방법을 알아봅니다. Microsoft Purview의 보안용 Microsoft Copilot에 대해 자세히 알아보세요.

사례에 대한 분석 설정 구성

사례에 대한 검색 및 분석 설정을 구성

Microsoft Purview 포털로 이동하여 eDiscovery 권한이 할당된 사용자 계정에 대한 자격 증명을 사용하여 로그인합니다.
eDiscovery 솔루션 카드를 선택한 다음, 왼쪽 탐색에서 사례를 선택합니다.
사례를 선택하고 사례 설정을 선택합니다.
사례 설정 페이지에서 검색 & 분석을 선택합니다.
사례 검색 & 분석 페이지가 표시됩니다. 이러한 설정은 사례의 모든 검토 집합에 적용됩니다.
해당 검색 및 분석 옵션을 선택한 후 저장을 선택합니다.

이 문서의 다음 섹션에서는 사례에 대해 구성할 수 있는 분석 설정에 대해 설명합니다.

근사 중복 및 전자 메일 스레드

이 섹션에서는 중복 검색, 거의 중복 검색 및 이메일 스레딩에 대한 매개 변수를 설정할 수 있습니다.

거의 중복/이메일 스레딩: 켜지면 중복 검색, 거의 중복 검색 및 이메일 스레딩이 검토 집합의 데이터에 대한 분석을 실행할 때 워크플로의 일부로 포함됩니다.
문서 및 전자 메일 유사성 임계값: 두 문서의 유사성 수준이 임계값을 초과하는 경우 두 문서는 거의 동일한 중복 집합에 배치됩니다.
최소/최대 단어 수: 이러한 설정은 최소 단어 수와 최대 단어 수가 있는 문서에서만 중복 및 전자 메일 스레딩 분석이 수행되도록 지정합니다.

중복에 가까운 검색

하위 집합이 동일한 템플릿을 기반으로 하고 여기저기서 몇 가지 차이점을 제외하고 대부분 동일한 상용구 언어를 사용하는 검토할 문서 집합을 고려하세요. 검토자가 이 하위 집합을 식별하고, 그 중 하나를 철저히 검토하고, 나머지 항목의 차이점을 검토할 수 있다면, 모든 문서 커버를 읽는 데 걸린 시간의 일부만 복용하면서 고유한 정보를 놓치지 않았을 것입니다. 근사 중복 검색 시 텍스트로 유사한 문서를 그룹화하여 검토 프로세스를 더욱 효율적으로 만드는 데 도움이 됩니다.

근사 중복 검색이 실행될 경우, 시스템에서 모든 문서를 텍스트로 구문 분석합니다. 그런 다음 각 문서를 서로 비교하여 유사성의 기준이 설정된 임계값보다 큰지 확인할 수 있습니다. 문서가 있는 경우 문서가 함께 그룹화됩니다. 모든 문서를 비교하고 그룹화하고 나면 각 그룹의 문서가 "피벗"으로 표시됩니다. 문서를 검토할 때 피벗을 먼저 검토하고 같은 중복 집합에서 다른 문서를 검토하면서 피벗과 검토할 문서의 차이를 중점적으로 다룰 수 있습니다.

이메일 스레드

한동안 계속되어 온 전자 메일 대화를 생각해 보세요. 대부분의 경우 전자 메일 스레드의 마지막 메시지에는 이전 메시지의 내용이 모두 포함됩니다. 따라서 마지막 메시지를 검토하면 스레드에서 발생한 대화의 전체 컨텍스트가 제공됩니다. 이메일 스레딩은 검토자가 컨텍스트를 잃지 않고 수집된 문서의 일부를 검토할 수 있도록 이러한 메시지를 식별합니다.

이메일 스레딩은 각 이메일 스레드를 구문 분석하고 개별 메시지로 분해합니다. 각 이메일 스레드는 개별 메시지의 체인입니다. eDiscovery(미리 보기)는 검토 집합의 모든 전자 메일 메시지를 분석하여 전자 메일 메시지에 고유한 콘텐츠가 있는지 또는 체인(부모 메시지)이 전자 메일 스레드의 최종 메시지에 완전히 포함되어 있는지 여부를 확인합니다. 전자 메일 메시지는 다음 네 가지 포함 값으로 나뉩니다.

포함: 포괄 전자 메일은 전자 메일 스레드의 최종 전자 메일 메시지이며 해당 전자 메일 스레드의 모든 이전 콘텐츠를 포함합니다.
포함 빼기: 전자 메일 스레드 내에 특정 메시지와 연결된 첨부 파일이 하나 이상 있는 경우 전자 메일 메시지는 포함 빼 기로 지정됩니다. 검토자는 포함 빼기 값을 사용하여 스레드 내의 특정 전자 메일 메시지에 연결된 첨부 파일이 있는지 확인할 수 있습니다.
포괄 복사본: 포괄 또는 포괄 빼기 메시지의 정확한 복사본 인 경우 전자 메일 메시지는 포괄 복사본으로 간주됩니다.
없음: None 값은 메시지의 내용이 포함 또는 포함 빼기로 표시된 하나 이상의 다른 전자 메일 메시지에 완전히 포함되어 있음을 나타냅니다.

Outlook의 대화와 어떻게 다른가요?

Outlook의 대화 그룹화와 비슷하게 들립니다. 그러나 몇 가지 중요한 차이점이 있습니다. 두 개의 대화로 포크된 전자 메일 대화를 고려합니다. 예를 들어 대화에서 최신이 아닌 전자 메일에 응답한 사람이 있으므로 대화의 마지막 두 전자 메일에는 모두 고유한 콘텐츠가 있습니다.

Outlook은 여전히 전자 메일을 단일 대화로 그룹화합니다. 마지막 전자 메일만 읽어도 고유한 콘텐츠가 포함된 두 번째-마지막 전자 메일의 컨텍스트를 놓칠 수 있습니다. 전자 메일 스레딩은 각 전자 메일을 개별 구성 요소로 구문 분석하고 비교하기 때문에 전자 메일 스레딩은 마지막 두 전자 메일을 모두 포괄으로 표시하므로 포괄으로 표시된 모든 전자 메일을 읽는 한 컨텍스트를 놓치지 않도록 합니다.

테마

이 섹션에서는 테마에 대해 다음 매개 변수를 설정할 수 있습니다.

테마: 켜지면 검토 집합의 데이터에 대한 분석을 실행할 때 테마 클러스터링이 워크플로의 일부로 수행됩니다.
최대 테마 수: 검토 집합의 데이터에 대한 분석을 실행할 때 생성할 수 있는 최대 테마 수를 지정합니다.
테마에 숫자를 포함합니다. 설정하면 테마를 생성할 때 숫자(테마를 식별하는)가 포함됩니다.
최대 테마 수를 동적으로 조정합니다. 특정 상황에서는 검토 집합에 원하는 수의 테마를 생성하기에 충분한 문서가 없을 수 있습니다. 이 설정을 사용하도록 설정하면 eDiscovery는 최대 테마 수를 적용하는 대신 최대 테마 수를 동적으로 조정합니다.

새 문서를 만들 때 일반적으로 문서에서 전달하려는 하나 이상의 아이디어로 시작한 다음, 이러한 아이디어에 맞는 단어를 사용하여 문서를 작성합니다. 아이디어가 널리 퍼질수록 해당 아이디어와 관련된 단어가 더 자주 나오는 경향이 있습니다. 이 메서드는 판독기에서 문서를 사용하는 방법도 일치합니다. 문서를 읽을 때 이해해야 할 중요한 사항은 문서가 전달하려는 주요 아이디어입니다. 여기에는 어떤 아이디어가 표시되는지와 아이디어 간의 관계가 무엇인지도 포함됩니다.

이 프로세스는 eDiscovery 검토자가 사례에서 문서 집합을 사용하려는 방식으로 확장할 수 있습니다. 그들은 검토 세트에 있는 아이디어와 이러한 아이디어에 대해 이야기하는 문서를 보고 싶어합니다. 관심 있는 특정 문서를 찾으면 비슷한 아이디어를 논의하는 문서를 볼 수 있기를 원합니다.

eDiscovery 의 테마 기능은 검토 집합에서 설명하는 테마 를 분석하고 검토 집합의 문서에 테마를 할당하여 인간이 문서에 대해 어떻게 추론하는지 모방하려고 시도합니다. eDiscovery에서 테마는 한 단계 더 나아가 각 검토 집합 및 문서에서 주요 테마 를 식별합니다. 주요 테마는 문서에서 가장 자주 나타나는 테마입니다.

테마는 어떻게 작동합니까?

테마 기능은 검토 집합의 텍스트를 사용하여 문서를 분석하여 검토 집합의 모든 문서에 표시되는 일반적인 테마를 구문 분석합니다. eDiscovery는 이러한 테마를 표시되는 문서에 할당합니다. 또한 각 테마에 테마를 대표하는 문서에서 사용된 단어로 레이블을 지정합니다. 문서에는 다양한 유형의 주제가 포함될 수 있으므로 eDiscovery는 종종 여러 테마를 할당하여 집합 및 문서를 검토합니다. 이를 테마 목록이라고 합니다. 검토 집합 또는 문서에서 가장 눈에 띄게 표시되는 테마는 주요 테마로 지정됩니다.

테마 구성

테마는 사례에 대해 지원되며 해당 항목 내의 모든 검토 집합에 적용됩니다. 새 사례를 만들 때 테마에 대한 설정을 구성하거나 기존 사례에 대한 테마 설정을 업데이트할 수 있습니다.

경우에 따라 테마를 구성하려면 다음 단계를 완료합니다.

Microsoft Purview 포털로 이동하여 eDiscovery 권한이 할당된 사용자 계정에 대한 자격 증명을 사용하여 로그인합니다.
eDiscovery 솔루션 카드를 선택한 다음, 왼쪽 탐색에서 사례를 선택합니다.
사례를 선택하고 사례 설정을 선택합니다.
사례 설정 페이지에서 검색 & 분석을 선택합니다.
해당하는 경우 다음 테마 옵션을 선택합니다.
- 최대 테마 수: 사례에 포함된 검토 집합의 데이터에 대한 분석을 실행할 때 생성할 수 있는 최대 테마 수를 지정합니다. 제한에 대한 자세한 내용은 eDiscovery의 제한을 참조하세요.
- 테마에 숫자를 포함합니다. 테마를 생성할 때 숫자(테마를 식별하는)가 포함됩니다.
- 최대 테마 수를 동적으로 조정합니다. 특정 상황에서는 검토 집합에 원하는 수의 테마를 생성할 수 있는 문서가 충분하지 않을 수 있습니다. 이 설정을 사용하도록 설정하면 최대 테마 수를 적용하는 대신 최대 테마 수가 동적으로 조정됩니다.
테마와 연결된 키워드를 제외해야 하는 경우 텍스트 무시 필드에 필요한 텍스트 또는 정규식을 입력합니다. 적용 대상 필드에서 테마를 선택하여 모든 테마에 텍스트 또는 정규식을 적용합니다.
저장을 선택합니다.

새 사례를 만든 후 검토 집합이 사례에 추가되면 데이터에서 분석이 자동으로 실행됩니다. 검토 집합에 대한 테마는 분석 처리의 일부로 생성됩니다.

쿼리 집합 검토

분석 후 검토용 저장된 검색 자동 만들기 확인란을 선택하면 eDiscovery에서 검토용이라는 검토 집합 쿼리를 자동으로 생성합니다.

이 쿼리는 검토 집합에서 중복된 항목을 필터링하여 검토 집합의 고유한 항목을 신속하게 검토할 수 있도록 합니다. 이 쿼리는 사례에 있는 검토 집합에 대한 분석을 실행할 때만 만들어집니다. 검토 집합 쿼리에 대한 자세한 내용은 검토 집합의 데이터 쿼리를 참조하세요.

텍스트 무시

전자 메일의 내용에 관계없이 전자 메일 메시지에 추가되는 긴 고지 사항과 같이 특정 텍스트의 분석 품질이 저하되는 상황이 있습니다. 무시해야 하는 텍스트를 알고 있는 경우 텍스트를 제외해야 하는 텍스트 문자열 및 분석 기능(거의 중복, 전자 메일 스레딩, 테마 및 관련성)을 지정하여 분석에서 제외할 수 있습니다. 무시된 텍스트에 정규식(RegEx)을 사용하는 것도 지원됩니다.

광학 문자 인식(OCR)

이 설정이 켜져 있으면 OCR 처리가 이미지 파일에서 실행됩니다. OCR 처리는 다음과 같은 상황에서 실행됩니다.

데이터 원본이 사례에 추가되는 경우: OCR이 이미지 파일에 적용되면 해당 파일의 텍스트를 검색 결과에서 사용할 수 있습니다. OCR 처리는 고급 인덱싱 프로세스 중에 수행됩니다(검색 쿼리에서 이 옵션을 선택한 경우). OCR은 고급 인덱싱 중에 처리되는 항목에서만 실행됩니다. 예를 들어 고급 인덱싱 중에 부분적으로 인덱싱되거나 다른 인덱싱 오류가 있는 큰 PDF 파일이 처리되는 경우 파일에 OCR이 적용됩니다. OCR 처리는 고급 인덱싱 프로세스 중에 다시 인덱싱된 파일에서만 발생합니다. 즉, 데이터 원본이 사례에 추가되는 상황이 있을 수 있지만 고급 인덱싱 중에 해당 파일이 처리되지 않으므로 일부 전자 메일 첨부 파일은 OCR에 대해 처리되지 않습니다.
다른 데이터 원본에서 콘텐츠가 추가되는 경우: 이는 데이터 원본이 사례와 연결되지 않고 검색 결과가 검토 집합에 추가되는 경우에 적용됩니다.

데이터가 검토 집합에 추가되면 이미지 텍스트를 검토하고, 검색하고, 태그를 지정하고, 분석할 수 있습니다. 검토 집합에서 선택한 이미지 파일의 텍스트 뷰어에서 추출된 텍스트를 볼 수 있습니다. 자세한 내용은 다음 항목을 참조하세요.

다음을 통해 공유