Azure AI 스튜디오의 모델을 사용하여 통합 벡터화를 구현하는 방법

아티클
09/03/2024

Important

이 기능은 추가 사용 약관에 따라 공개 미리 보기로 제공됩니다. 2024-05-01-Preview REST API는 이 기능을 지원합니다.

이 문서에서는 인덱싱 동안 및 Azure AI 검색의 쿼리에서 벡터 변환을 위해 Azure AI 스튜디오 모델 카탈로그의 포함 모델에 액세스하는 방법을 알아봅니다.

워크플로에는 모델 배포 단계가 포함됩니다. 모델 카탈로그에는 Azure OpenAI, Cohere, Facebook 및 OpenAI의 모델 포함이 포함됩니다. 모델 배포는 각 공급자의 청구 구조에 따라 비용을 청구할 수 있습니다.

모델을 배포한 후에는 인덱싱하는 동안 통합 벡터화에 또는 쿼리를 위해 AI Studio 벡터라이저에서 사용할 수 있습니다.

Azure AI 스튜디오 모델 카탈로그의 포함 모델 배포

Azure AI 스튜디오 모델 카탈로그를 엽니다.
필터를 적용하여 포함 모델만 표시합니다. 유추 작업 아래에서 포함을 선택합니다.
콘텐츠를 벡터화할 모델을 선택합니다. 그런 다음, 배포를 선택하고 배포 옵션을 선택합니다.
요청된 세부 정보를 입력합니다. AI 프로젝트를 선택하거나 새 AI 프로젝트를 만들고 배포를 선택합니다. 배포 세부 정보는 선택한 모델에 따라 달라집니다.
프로비전 상태를 모니터링하여 모델 배포가 완료되기를 기다립니다. "프로비전 중"에서 "업데이트 중", "성공"으로 변경됩니다. 상태 업데이트를 보려면 몇 분마다 새로 고침을 선택해야 할 수 있습니다.
URL, 기본 키 및 모델 ID 필드를 복사하고 나중에 사용할 수 있도록 따로 설정합니다. 검색 인덱스의 벡터라이저 정의와 인덱싱 중에 모델 엔드포인트를 호출하는 기술 세트에 대해 이러한 값이 필요합니다.

필요에 따라 키 인증 대신 토큰 인증을 사용하도록 엔드포인트를 변경할 수 있습니다. 토큰 인증을 사용하도록 설정하는 경우 URL 및 모델 ID만 복사하고 모델이 배포되는 지역을 기록해 두면 됩니다.
이제 배포된 모델을 사용하도록 검색 인덱스 및 인덱서를 구성할 수 있습니다.
- 인덱싱하는 동안 모델을 사용하려면 통합 벡터화를 사용하도록 설정하는 단계를 참조하세요. AzureOpenAIEmbedding 기술이 아니라 AML(Azure Machine Learning) 기술을 사용해야 합니다. 다음 섹션에서는 기술 구성에 대해 설명합니다.
- 쿼리 시 모델을 벡터라이저로 사용하려면 벡터라이저 구성을 참조하세요. 이 단계에서는 Azure AI 스튜디오 모델 카탈로그 벡터라이저를 사용해야 합니다.

샘플 AML 기술 페이로드

Azure AI 스튜디오 모델 카탈로그의 포함 모델을 배포하는 경우 워크로드 인덱싱을 위해 Azure AI 검색의 AML 기술을 사용하여 연결합니다.

이 섹션에서는 AML 기술 정의 및 인덱스 매핑에 대해 설명합니다. 여기에는 배포된 해당 엔드포인트에서 작동하도록 이미 구성된 샘플 페이로드가 포함됩니다. 이러한 페이로드의 작동 방식에 대한 자세한 기술 정보는 기술 컨텍스트 및 입력 주석 언어에 대해 읽어보세요.

이 AML 기술 페이로드는 AI 스튜디오의 다음 모델에서 작동합니다.

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

텍스트 분할 기술을 사용하여 콘텐츠를 청크하고 벡터화할 텍스트가 /document/pages/* 경로에 있다고 가정합니다. 텍스트가 다른 경로에서 오는 경우 /document/pages/* 경로에 대한 모든 참조를 적절하게 업데이트합니다.

URI 및 키는 카탈로그에서 모델을 배포할 때 생성됩니다. 이러한 값에 대한 자세한 내용은 Azure AI 스튜디오를 사용하여 대규모 언어 모델을 배포하는 방법을 참조하세요.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

이 AML 기술 페이로드는 AI 스튜디오의 다음 모델에서 작동합니다.

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

이미지가 기본 제공 이미지 추출을 사용하도록 설정하여 만든 /document/normalized_images/* 경로에서 온 것으로 가정합니다. 이미지가 다른 경로에서 오거나 URL로 저장된 경우 /document/normalized_images/* 경로에 대한 모든 참조를 적절하게 업데이트합니다.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

이 AML 기술 페이로드는 AI 스튜디오의 다음 모델에서 작동합니다.

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

SplitSkill을 사용하여 콘텐츠를 청크하고 벡터화할 텍스트가 /document/pages/* 경로에 있다고 가정합니다. 텍스트가 다른 경로에서 오는 경우 /document/pages/* 경로에 대한 모든 참조를 적절하게 업데이트합니다.

AI 스튜디오 배포에서 복사한 URL의 끝에 /v1/embed 경로를 추가해야 합니다. 사용 사례에 맞게 input_type, truncate 및 embedding_types 입력 값을 변경할 수도 있습니다. 사용 가능한 옵션에 대한 자세한 내용은 Cohere Embed API 참조를 검토하세요.

URI 및 키는 카탈로그에서 모델을 배포할 때 생성됩니다. 이러한 값에 대한 자세한 내용은 Azure AI 스튜디오를 사용하여 Cohere Embed 모델을 배포하는 방법을 참조하세요.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>/v1/embed",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

또한 Cohere 모델의 출력은 포함 배열이 아니라 이를 포함하는 JSON 개체입니다. indexProjections 또는 outputFieldMappings를 통해 인덱스 정의에 매핑할 때 적절하게 선택해야 합니다. 다음은 이 매핑을 구현할 수 있는 샘플 indexProjections 페이로드입니다.

기술 정의에서 다른 embedding_types를 선택한 경우 대신 source 경로의 float를 선택한 적절한 형식으로 변경해야 합니다.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "<YOUR_TARGET_INDEX_NAME_HERE>",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

샘플 AI 스튜디오 벡터라이저 페이로드

AML 기술과 달리 AI 스튜디오 벡터라이저는 AI 스튜디오 모델 카탈로그를 통해 배포할 수 있는 포함 모델에서만 작동하도록 조정됩니다. 주요 차이점은 요청 및 응답 페이로드에 대해 걱정할 필요가 없지만 AI 스튜디오에서 모델을 배포한 후 복사한 "모델 ID"에 해당하는 modelName을 제공해야 한다는 것입니다.

다음은 AI 스튜디오에서 복사한 속성을 고려할 때 인덱스 정의에서 벡터라이저를 구성하는 방법에 대한 샘플 페이로드입니다.

Cohere 모델의 경우 기술과 마찬가지로 URL 끝에 /v1/embed 경로를 추가해서는 안 됩니다.

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

토큰 인증을 사용하여 연결

키 기반 인증을 사용할 수 없는 경우 대신 Azure에서 역할 기반 액세스 제어를 통한 토큰 인증을 위해 AML 기술 및 AI 스튜디오 벡터라이저 연결을 구성할 수 있습니다. 검색 서비스에는 시스템 또는 사용자 할당 관리 ID가 있어야 하며 ID에는 AML 프로젝트 작업 영역에 대한 소유자 또는 기여자 권한이 있어야 합니다. 그런 다음, 기술 및 벡터라이저 정의에서 키 필드를 제거하고 resourceId 필드로 바꿀 수 있습니다. AML 프로젝트 및 검색 서비스가 다른 지역에 있는 경우 지역 필드도 제공합니다.

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

다음을 통해 공유

Azure AI 스튜디오의 모델을 사용하여 통합 벡터화를 구현하는 방법

Azure AI 스튜디오 모델 카탈로그의 포함 모델 배포

샘플 AML 기술 페이로드

샘플 AI 스튜디오 벡터라이저 페이로드

토큰 인증을 사용하여 연결

다음 단계

피드백

추가 리소스