AI 스튜디오를 통해 사용자 지정 생성 모델 빌드 및 학습

이 문서에서는 Azure AI 스튜디오를 통해 사용자 지정 생성 모델을 빌드하고 학습하는 방법을 알아봅니다. 문서 인텔리전스 사용자 지정 모델을 시작하려면 다섯 개의 학습 문서만 필요합니다. 문서가 다섯 개 이상 있으신가요? 그렇다면 사용자 지정 생성 모델을 학습, 테스트해 보겠습니다.

필수 조건

  • 활성 상태인 Azure 구독이 필요합니다. Azure 구독이 없는 경우 체험 구독을 만들 수 있습니다.

  • Azure 구독이 있으면 Azure Portal에 문서 인텔리전스 인스턴스가 있습니다. 무료 가격 책정 계층(F0)을 사용하여 서비스를 시도할 수 있습니다.

  • 리소스가 배포된 후 리소스로 이동을 선택하고 키 및 엔드포인트를 찾아옵니다.

    • 애플리케이션을 문서 인텔리전스 서비스에 연결하려면 리소스의 키와 엔드포인트가 필요합니다. 키와 엔드포인트를 이 빠른 시작의 뒷부분에서 코드에 붙여넣습니다. Azure Portal 키 및 엔드포인트 페이지에서 다음 값을 찾을 수 있습니다.

저장 컨테이너 권한 부여

다음 옵션 중 하나를 선택하여 문서 리소스에 대한 액세스 권한을 부여할 수 있습니다.

✔️ 관리 ID. 관리 ID는 Azure 관리되는 리소스를 위한 Microsoft Entra ID와 특정 권한을 만드는 서비스 주체입니다. 관리 ID를 사용하면 코드에 자격 증명을 포함하지 않고도 문서 인텔리전스 애플리케이션을 실행할 수 있습니다. 관리 ID는 스토리지 데이터에 대한 액세스 권한을 부여하고, SAS(공유 액세스 서명) 토큰을 원본 및 결과 URL에 포함해야 하는 요구 사항을 대체하는 더욱 안전한 방법입니다.

자세한 내용은 문서 인텔리전스용 관리 ID참조하세요.

관리 ID 흐름(역할 기반 액세스 제어)의 스크린샷

Important

  • 관리 ID를 사용하는 경우 HTTP 요청에 SAS 토큰 URL을 포함하지 마세요. 요청이 실패합니다. 관리 ID 사용은 SAS(공유 액세스 서명) 토큰을 포함해야 하는 요구 사항을 대체합니다. ✔️ SAS(공유 액세스 서명). 공유 액세스 서명은 문서 인텔리전스 서비스에 지정된 기간 동안 제한된 액세스 권한을 부여하는 URL입니다. 이 방법을 사용하려면 원본 및 결과 컨테이너에 대한 SAS(공유 액세스 서명) 토큰을 만들어야 합니다. 원본 및 결과 컨테이너에는 쿼리 문자열로 추가된 SAS(공유 액세스 서명) 토큰이 포함되어 있어야 합니다. 토큰은 컨테이너 또는 특정 Blob에 할당될 수 있습니다.

SAS 토큰이 추가된 스토리지 URI의 스크린샷.

  • 원본 컨테이너 또는 Blob에는 읽기, 쓰기, 나열, 삭제 액세스 권한이 지정되어 있어야 합니다.
  • 결과 컨테이너 또는 Blob에는 쓰기, 나열, 삭제 액세스 권한이 지정되어 있어야 합니다.

자세한 내용은 SAS 토큰 만들기참조하세요.

학습 데이터

학습을 위해 데이터 세트를 최적화하려면 다음 팁을 따릅니다.

  • 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.

  • 입력 필드가 있는 양식에 대해 모든 필드가 완료된 예제를 사용합니다.

  • 각 필드에 서로 다른 값이 있는 양식을 사용합니다.

  • 양식 이미지의 품질이 낮은 경우 더 큰 데이터 세트(예: 이미지 10~15개)를 사용합니다.

Azure Blob Storage 컨테이너가 있으면 학습 데이터를 원본 컨테이너에 업로드합니다. 이제 사용자 지정 생성 모델을 학습할 준비가 되었습니다.

Azure AI Studio

  1. Azure AI 스튜디오로 이동합니다. 스튜디오를 처음 사용하는 경우 프로젝트를 만들기 전에 구독을 초기화하고 허브를 만들어야 합니다. 사용자 지정 생성 모델은 미리 보기로 미국 동부 및 미국 중북부에서만 사용할 수 있습니다. 허브를 만드는 동안 리소스 그룹이 미국 동부 및 미국 중북부로 설정되어 있는지 확인합니다.

  2. Vision + 문서 타일을 선택합니다.

    문서 인텔리전스/비전 타일의 스크린샷

  3. 그런 다음 문서 필드 추출 타일을 선택하고 문서 필드 추출 프로젝트 만들기 단추를 선택하여 프로젝트를 만듭니다.

    문서 필드 추출 프로젝트 만들기 페이지의 스크린샷

  4. 프로젝트 만들기 자세한 내용은 Azure AI 스튜디오에서 프로젝트 만들기참조하세요.

  5. Azure AI 서비스 연결을 만들어 Azure 문서 인텔리전스 서비스에 액세스합니다.

    문서 추출 프로젝트 만들기 개요 페이지의 스크린샷

  6. 다음으로 사용자 지정 모델 학습 데이터 세트를 업로드하는 데 사용한 스토리지 계정을 선택합니다.

    문서 추출 프로젝트 데이터 설정 페이지의 스크린샷

  7. 프로젝트 설정을 검토하고 Create a Project를 선택하여 새 프로젝트를 만듭니다. 프로젝트를 선택하면 이제 Define schema 창에 나타나고 나열된 데이터 세트의 파일을 볼 수 있어야 합니다.

스키마 정의

  • 프로젝트의 첫 번째 작업은 스키마를 추출하고 정의하기 위한 필드를 추가하는 것입니다.

  • 업로드한 파일이 나열되며 드롭다운 옵션을 사용해 파일을 선택할 수 있습니다. ➕ Add new field 단추를 클릭하여 필드 추가를 시작할 수 있습니다.

  • 추출할 필드의 이름과 설명, 유형을 입력합니다. 모든 필드가 추가되면 화면 아래쪽의 Save 단추를 선택합니다.

레이블 데이터

  • 스키마가 저장되면 업로드된 모든 학습 문서가 분석되고 필드 값이 자동으로 추출됩니다. 필드 값이 검토할 수 있도록 화면에 나열됩니다. 자동 추출된 필드는 예측 태그가 지정됩니다.

  • 예측 값을 검토합니다. 필드 값이 올바르지 않거나 추출되지 않은 경우 예측 필드를 마우스로 가리키면 됩니다. 내용을 변경하려면 편집 단추를 선택합니다.

    추출 프로젝트 편집 단추의 스크린샷

  • 내용을 변경하면 예측 태그가 Corrected를 표시합니다.

    추출 프로젝트 수정 표시기의 스크린샷

  • 예측 필드를 계속 검토합니다. 모든 학습 문서에 대한 레이블을 검토하고 수정한 후 모델 빌드를 진행합니다.

    참고 항목

    모델 학습 중에는 언제든지 돌아가서 스키마를 업데이트할 수 있지만, 자동 레이블 기능을 사용하려면 Upload files 옵션을 사용하여 파일을 삭제하고 다시 로드해야 합니다.

모델 빌드

레이블이 지정된 데이터 세트를 사용하여 모델을 학습할 준비가 되었습니다. Build model를 선택합니다. 모델 빌드 대화 상자에서 고유한 모델 이름과 설명(선택 사항)을 입력합니다. modelID는 문자열 데이터 형식을 허용합니다.

추출 모델 빌드 페이지의 스크린샷

Build를 선택하여 학습 프로세스를 시작합니다. 생성 모델은 즉시 학습됩니다! 상태가 성공으로 변경되면 페이지를 새로 고쳐 모델을 선택합니다.

모델 테스트

  • 모델 학습이 완료되면 CustomGenerative 페이지에서 Test 모델을 선택하여 모델을 테스트할 수 있습니다.

    사용자 지정 생성 페이지의 스크린샷

  • 테스트 파일을 업로드하고 Run Analysis를 선택하여 문서에서 필드 값을 추출합니다. Analyze 옵션을 사용하면 현재 문서 또는 모든 문서를 실행하고 분석하도록 선택할 수 있습니다.

  • 각 필드의 결과를 평가하여 모델 정확도를 확인합니다.

정말 간단하죠. Azure AI 스튜디오에서 사용자 지정 생성 모델을 학습하는 방법을 배웠습니다. 모델은 REST API 또는 SDK와 함께 문서를 분석하는 데 사용할 준비가 된 것입니다.

다음 단계

사용자 지정 생성 모델에 대해 자세히 알아보기

사용자 지정 모델의 정확도와 신뢰도에 대해 자세히 알아보기