Azure AI 스튜디오의 모델을 사용하여 통합 벡터화를 구현하는 방법

Important

이 기능은 추가 사용 약관에 따라 공개 미리 보기로 제공됩니다. 2024-05-01-Preview REST API는 이 기능을 지원합니다.

이 문서에서는 인덱싱 동안 및 Azure AI 검색의 쿼리에서 벡터 변환을 위해 Azure AI 스튜디오 모델 카탈로그의 포함 모델에 액세스하는 방법을 알아봅니다.

워크플로에는 모델 배포 단계가 포함됩니다. 모델 카탈로그에는 Azure OpenAI, Cohere, Facebook 및 OpenAI의 모델 포함이 포함됩니다. 모델 배포는 각 공급자의 청구 구조에 따라 비용을 청구할 수 있습니다.

모델을 배포한 후에는 인덱싱하는 동안 통합 벡터화에 또는 쿼리를 위해 AI Studio 벡터라이저에서 사용할 수 있습니다.

Azure AI 스튜디오 모델 카탈로그의 포함 모델 배포

  1. Azure AI 스튜디오 모델 카탈로그를 엽니다.

  2. 필터를 적용하여 포함 모델만 표시합니다. 유추 작업 아래에서 포함을 선택합니다.

    모델을 포함하여 필터링하는 방법을 강조 표시하는 Azure AI 스튜디오 모델 카탈로그 페이지의 스크린샷

  3. 콘텐츠를 벡터화할 모델을 선택합니다. 그런 다음, 배포를 선택하고 배포 옵션을 선택합니다.

    Azure AI 스튜디오 모델 카탈로그를 통해 엔드포인트를 배포하는 스크린샷

  4. 요청된 세부 정보를 입력합니다. AI 프로젝트를 선택하거나 새 AI 프로젝트를 만들고 배포를 선택합니다. 배포 세부 정보는 선택한 모델에 따라 달라집니다.

  5. 프로비전 상태를 모니터링하여 모델 배포가 완료되기를 기다립니다. "프로비전 중"에서 "업데이트 중", "성공"으로 변경됩니다. 상태 업데이트를 보려면 몇 분마다 새로 고침을 선택해야 할 수 있습니다.

  6. URL, 기본 키 및 모델 ID 필드를 복사하고 나중에 사용할 수 있도록 따로 설정합니다. 검색 인덱스의 벡터라이저 정의와 인덱싱 중에 모델 엔드포인트를 호출하는 기술 세트에 대해 이러한 값이 필요합니다.

    필요에 따라 키 인증 대신 토큰 인증을 사용하도록 엔드포인트를 변경할 수 있습니다. 토큰 인증을 사용하도록 설정하는 경우 URL 및 모델 ID만 복사하고 모델이 배포되는 지역을 기록해 두면 됩니다.

    나중에 복사하고 저장할 필드를 강조 표시하는 AI 스튜디오의 배포된 엔드포인트 스크린샷

  7. 이제 배포된 모델을 사용하도록 검색 인덱스 및 인덱서를 구성할 수 있습니다.

샘플 AML 기술 페이로드

Azure AI 스튜디오 모델 카탈로그의 포함 모델을 배포하는 경우 워크로드 인덱싱을 위해 Azure AI 검색의 AML 기술을 사용하여 연결합니다.

이 섹션에서는 AML 기술 정의 및 인덱스 매핑에 대해 설명합니다. 여기에는 배포된 해당 엔드포인트에서 작동하도록 이미 구성된 샘플 페이로드가 포함됩니다. 이러한 페이로드의 작동 방식에 대한 자세한 기술 정보는 기술 컨텍스트 및 입력 주석 언어에 대해 읽어보세요.

이 AML 기술 페이로드는 AI 스튜디오의 다음 모델에서 작동합니다.

  • OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
  • OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

텍스트 분할 기술을 사용하여 콘텐츠를 청크하고 벡터화할 텍스트가 /document/pages/* 경로에 있다고 가정합니다. 텍스트가 다른 경로에서 오는 경우 /document/pages/* 경로에 대한 모든 참조를 적절하게 업데이트합니다.

URI 및 키는 카탈로그에서 모델을 배포할 때 생성됩니다. 이러한 값에 대한 자세한 내용은 Azure AI 스튜디오를 사용하여 대규모 언어 모델을 배포하는 방법을 참조하세요.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

샘플 AI 스튜디오 벡터라이저 페이로드

AML 기술과 달리 AI 스튜디오 벡터라이저는 AI 스튜디오 모델 카탈로그를 통해 배포할 수 있는 포함 모델에서만 작동하도록 조정됩니다. 주요 차이점은 요청 및 응답 페이로드에 대해 걱정할 필요가 없지만 AI 스튜디오에서 모델을 배포한 후 복사한 "모델 ID"에 해당하는 modelName을 제공해야 한다는 것입니다.

다음은 AI 스튜디오에서 복사한 속성을 고려할 때 인덱스 정의에서 벡터라이저를 구성하는 방법에 대한 샘플 페이로드입니다.

Cohere 모델의 경우 기술과 마찬가지로 URL 끝에 /v1/embed 경로를 추가해서는 안 됩니다.

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

토큰 인증을 사용하여 연결

키 기반 인증을 사용할 수 없는 경우 대신 Azure에서 역할 기반 액세스 제어를 통한 토큰 인증을 위해 AML 기술 및 AI 스튜디오 벡터라이저 연결을 구성할 수 있습니다. 검색 서비스에는 시스템 또는 사용자 할당 관리 ID가 있어야 하며 ID에는 AML 프로젝트 작업 영역에 대한 소유자 또는 기여자 권한이 있어야 합니다. 그런 다음, 기술 및 벡터라이저 정의에서 키 필드를 제거하고 resourceId 필드로 바꿀 수 있습니다. AML 프로젝트 및 검색 서비스가 다른 지역에 있는 경우 지역 필드도 제공합니다.

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

다음 단계