레이블이 지정된 데이터 세트를 빌드하기 위한 팁

이 콘텐츠의 적용 대상:확인 표시v4.0(미리 보기) | 이전 버전:파란색 확인 표시v3.1(GA)파란색 확인 표시v3.0(GA)

이 콘텐츠의 적용 대상: 확인 표시 v3.1(GA) | 최신 버전: 보라색 확인 표시 v4.0(미리 보기) | 이전 버전: 파란색 확인 표시 v3.0

이 콘텐츠의 적용 대상:확인 표시v3.0(GA) | 최신 버전:보라색 확인 표시v4.0(미리 보기)보라색 확인 표시v3.1

Important

레이블이 지정된 데이터 세트를 생성하는 모범 사례는 사용자 지정 템플릿과 사용자 지정 신경망 모델에만 적용되며 사용자 지정 생성에 대해서는 사용자 지정 생성을 참조하세요.

이 문서에서는 Document Intelligence Studio에서 사용자 지정 모델 데이터 세트에 레이블을 지정하는 가장 좋은 방법을 강조합니다. 문서에 레이블이 많거나, 길거나, 구조가 다양한 경우 문서에 레이블을 지정하려면 오랜 시간이 걸릴 수 있습니다. 이러한 팁은 문서에 더욱 효율적으로 레이블을 지정하는 데 도움이 됩니다.

동영상: 사용자 지정 레이블 모범 사례

  • 다음 비디오는 사용자 지정 모델을 더 정확히 빌드하는 데 도움이 되는 프레젠테이션 2개 중 두 번째입니다(첫 번째 프레젠테이션에서는 균형 잡힌 데이터 집합을 만드는 방법을 살펴봅니다).

  • 선택한 문서에 레이블을 지정하는 모범 사례를 검토합니다. 레이블을 일관적이고 의미상 관련이 있도록 지정하면 모델 성능이 향상됩니다.

레이블을 지정할 특정 단어를 찾아야 하지만 문서 어디쯤 있는지 모르는 경우를 대비해, 이제 Studio에 인스턴스 검색 상자가 포함됩니다. 단어나 구를 검색하고 문서의 특정 섹션으로 이동하여 항목에 레이블을 지정하기만 하면 됩니다.

테이블 자동 레이블 지정

테이블에 행이 많거나 텍스트가 조밀한 경우 레이블 지정이 어려울 수 있습니다. 레이아웃 테이블이 필요한 결과를 추출하면 해당 결과를 사용하고 레이블 지정 프로세스는 건너뛰면 됩니다. 레이아웃 테이블이 필요한 것은 아니라 해도, 레이아웃이 추출한 값에서 테이블 필드를 생성하는 것으로 프로세스를 시작할 수 있습니다. 먼저 페이지에서 테이블 아이콘을 선택하고 자동 레이블 단추를 선택합니다. 그런 다음 필요에 따라 값을 편집할 수 있습니다. 자동 레이블은 현재 단일 페이지 테이블만 지원합니다.

Shift 선택

범위에 있는 각 단어를 표시하는 대신 넓은 텍스트 범위에 레이블을 지정하는 경우, 단어를 선택할 때 Shift 키를 누르고 있으면 더 빠르게 레이블을 지정할 수 있으며 텍스트 범위에 있는 그 어떤 단어도 놓치지 않을 수 있습니다.

지역 레이블 지정

넓은 텍스트 범위에 레이블을 지정하는 두 번째 옵션은 영역 레이블 지정을 사용하는 것입니다. 지역 레이블 지정을 사용하면 OCR 결과가 학습 시 값으로 채워집니다. Shift 선택과 영역 레이블 지정의 차이점은 Shift를 사용하여 레이블을 지정하면 시각적 피드백이 제공된다는 것뿐입니다.

겹치는 필드 레이블 지정

필드와 표 셀에는 겹치는 필드가 지원됩니다. 분석 결과에 겹치는 필드가 포함될 것으로 예상되는 경우 특정 필드가 레이블이 겹치는 학습 데이터 세트에 샘플을 하나 이상 추가해야 합니다. 겹치는 필드에 레이블을 지정하려면 지역 레이블 지정 기능을 사용하여 각 필드에 대한 지역을 선택합니다. 전체 및 부분 중복이 모두 지원됩니다. 문서의 모든 단어는 두 필드에 대해서만 레이블을 지정할 수 있습니다.

필드 하위 유형

필드를 만들 때는 올바른 하위 유형을 선택하여 후처리를 최소화하세요. 예를 들어 날짜의 경우 dd-mm-yyyy 형식으로 값을 추출하려면 dmy 옵션을 선택하세요.

다음 단계