Azure AI Search 쿼리를 위해 Azure Cosmos DB for Apache Gremlin에서 데이터 인덱싱

Important

Azure Cosmos DB for Apache Gremlin 인덱서는 현재 보충 사용 약관에 따라 공개 미리 보기에 있습니다. 현재 SDK는 지원되지 않습니다.

이 문서에서는 Azure Cosmos DB for Apache Gremlin에서 콘텐츠를 가져오고 Azure AI Search에서 검색할 수 있게 해 주는 인덱서를 구성하는 방법을 알아봅니다.

이 문서는 Cosmos DB와 관련된 정보로 인덱서 만들기를 보완합니다. REST API를 사용하여 모든 인덱서에 공통적인 세 부분으로 구성된 워크플로(데이터 원본 만들기, 인덱스 만들기, 인덱서 만들기)를 보여 줍니다. 데이터 추출은 인덱서 만들기 요청을 제출할 때 발생합니다.

용어가 혼동될 수 있으므로 Azure Cosmos DB 인덱싱Azure AI 검색 인덱싱은 서로 다른 작업임에 유의해야 합니다. Azure AI 검색의 인덱싱은 검색 서비스에서 검색 인덱스를 만들고 로드합니다.

필수 조건

  • 시나리오 피드백을 제공하려면 미리 보기에 등록합니다. 양식 제출 후 자동으로 기능에 액세스할 수 있습니다.

  • Azure Cosmos DB 계정, 데이터베이스, 컨테이너 및 항목. 대기 시간을 줄이고 대역폭 요금이 부과되지 않도록 하려면 Azure AI Search와 Azure Cosmos DB 모두에 동일한 지역을 사용합니다.

  • 일관성 있음으로 설정된 Azure Cosmos DB 컬렉션의 자동 인덱싱 정책. 이것은 기본 구성입니다. 지연 인덱싱은 권장되지 않으며 데이터가 누락될 수 있습니다.

  • 읽기 권한. "모든 권한" 연결 문자열에는 콘텐츠에 대한 액세스 권한을 부여하는 키가 포함되지만, Azure 역할을 사용하는 경우 검색 서비스 관리 IDCosmos DB 계정 읽기 권한자 역할 권한이 있는지 확인합니다.

  • 데이터 원본, 인덱스 및 인덱서를 만들기 위한 REST 클라이언트입니다.

데이터 원본 정의

데이터 원본 정의는 인덱싱할 데이터, 자격 증명 및 데이터 변경 내용을 식별하기 위한 정책을 지정합니다. 데이터 원본은 여러 인덱서에서 사용할 수 있도록 독립적인 리소스로 정의됩니다.

이 호출의 경우 미리 보기 REST API 버전을 지정하여 Azure Cosmos DB for Apache Gremlin를 통해 연결하는 데이터 원본을 만듭니다. 2021-04-01-preview 이상을 사용할 수 있습니다. 최신 미리 보기 API를 사용하는 것이 좋습니다.

  1. 데이터 원본을 만들거나 업데이트하여 정의를 설정합니다.

     POST https://[service name].search.windows.net/datasources?api-version=2024-05-01-preview
     Content-Type: application/json
     api-key: [Search service admin key]
     {
       "name": "[my-cosmosdb-gremlin-ds]",
       "type": "cosmosdb",
       "credentials": {
         "connectionString": "AccountEndpoint=https://[cosmos-account-name].documents.azure.com;AccountKey=[cosmos-account-key];Database=[cosmos-database-name];ApiKind=Gremlin;"
       },
       "container": {
         "name": "[cosmos-db-collection]",
         "query": "g.V()"
       },
       "dataChangeDetectionPolicy": {
         "@odata.type": "#Microsoft.Azure.Search.HighWaterMarkChangeDetectionPolicy",
         "highWaterMarkColumnName": "_ts"
       },
       "dataDeletionDetectionPolicy": null,
       "encryptionKey": null,
       "identity": null
     }
     }
    
  2. "type"을 "cosmosdb"(필수)으로 설정합니다.

  3. "credentials"를 연결 문자열로 설정합니다. 다음 섹션에서는 지원되는 형식에 대해 설명합니다.

  4. "container"를 컬렉션으로 설정합니다. "name" 속성은 필수이며 그래프의 ID를 지정합니다.

    "query" 속성은 선택 사항입니다. 기본적으로 Azure Cosmos DB for Apache Gremlin용 Azure AI Search 인덱서는 그래프의 모든 꼭짓점을 인덱스의 문서로 만듭니다. 가장자리는 무시됩니다. query 기본값은 g.V()입니다. 가장자리만 인덱싱하도록 쿼리를 설정할 수도 있습니다. 가장자리를 인덱싱하려면 쿼리를 g.E()로 설정합니다.

  5. 데이터가 휘발성이고 후속 실행 시 인덱서에서 새 항목과 업데이트된 항목만 선택하도록 하려면 "dataChangeDetectionPolicy"를 설정합니다. 증분 진행은 기본적으로 사용하도록 설정되며 _ts를 상위 워터마크 열로 사용합니다.

  6. 원본 항목이 삭제될 때 검색 인덱스에서 검색 문서를 제거하려면 "dataDeletionDetectionPolicy"를 설정합니다.

지원되는 자격 증명 및 연결 문자열

인덱서는 다음 연결을 사용하여 컬렉션에 연결할 수 있습니다. Azure Cosmos DB for Apache Gremlin을 대상으로 하는 연결의 경우 "ApiKind"를 연결 문자열에 포함해야 합니다.

엔드포인트 URL에서 포트 번호를 사용하지 않습니다. 포트 번호가 포함되면 연결이 실패합니다.

모든 권한 연결 문자열
{ "connectionString" : "AccountEndpoint=https://<Cosmos DB account name>.documents.azure.com;AccountKey=<Cosmos DB auth key>;Database=<Cosmos DB database id>;ApiKind=MongoDb" }
왼쪽 탐색 창에서 를 선택하여 Azure Portal의 Azure Cosmos DB 계정 페이지에서 연결 문자열을 가져올 수 있습니다. 키 외에도 전체 연결 문자열을 선택해야 합니다.
관리 ID 연결 문자열
{ "connectionString" : "ResourceId=/subscriptions/<your subscription ID>/resourceGroups/<your resource group name>/providers/Microsoft.DocumentDB/databaseAccounts/<your cosmos db account name>/;(ApiKind=[api-kind];)" }
이 연결 문자열에는 계정 키가 필요하지 않지만, 이전에 관리 ID를 사용하여 연결하도록 검색 서비스를 구성하고 Cosmos DB 계정 읽기 권한자 역할 권한을 부여하는 역할 할당을 만들었어야 합니다. 자세한 내용은 관리 ID를 사용하여 Azure Cosmos DB 데이터베이스에 대한 인덱서 연결 설정을 참조하세요.

인덱스에 검색 필드 추가

검색 인덱스에서 원본 JSON 문서 또는 사용자 지정 쿼리 프로젝션의 출력을 허용하는 필드를 추가합니다. 검색 인덱스 스키마가 그래프와 호환되는지 확인합니다. Azure Cosmos DB 콘텐츠의 경우 검색 인덱스 스키마는 데이터 원본의 Azure Cosmos DB 항목과 일치해야 합니다.

  1. 인덱스를 만들거나 업데이트하여 데이터를 저장할 검색 필드를 정의합니다.

     POST https://[service name].search.windows.net/indexes?api-version=2024-05-01-preview
     Content-Type: application/json
     api-key: [Search service admin key]
     {
        "name": "mysearchindex",
        "fields": [
         {
             "name": "rid",
             "type": "Edm.String",
             "facetable": false,
             "filterable": false,
             "key": true,
             "retrievable": true,
             "searchable": true,
             "sortable": false,
             "analyzer": "standard.lucene",
             "indexAnalyzer": null,
             "searchAnalyzer": null,
             "synonymMaps": [],
             "fields": []
         },{
         }, {
             "name": "label",
             "type": "Edm.String",
             "searchable": true,
             "filterable": false,
             "retrievable": true,
             "sortable": false,
             "facetable": false,
             "key": false,
             "indexAnalyzer": null,
             "searchAnalyzer": null,
             "analyzer": "standard.lucene",
             "synonymMaps": []
        }]
      }
    
  2. 문서 키 필드("key": true)를 만듭니다. 분할된 컬렉션의 경우 기본 문서 키는 Azure Cosmos DB _rid 속성입니다. 필드 이름은 밑줄 문자로 시작할 수 없으므로 Azure AI Search에서 자동으로 이 이름을 rid로 바꿉니다. 또한 Azure Cosmos DB _rid 값은 Azure AI Search 키에 잘못된 문자를 포함합니다. 따라서 _rid 값은 Base64로 인코딩됩니다.

  3. 더 검색 가능한 콘텐츠를 위해 추가 필드를 만듭니다. 자세한 내용은 인덱스 만들기를 참조하세요.

데이터 형식 매핑

JSON 데이터 형식 Azure AI 검색 필드 형식
Bool Edm.Boolean, Edm.String
정수와 같이 보이는 숫자 Edm.Int32, Edm.Int64, Edm.String
부동소수점처럼 보이는 숫자 Edm.Double, Edm.String
문자열 Edm.String
기본 형식의 배열(예: ["a", "b", "c"]) Collection(Edm.String)
날짜처럼 보이는 문자열 Edm.DateTimeOffset, Edm.String
GeoJSON 개체(예: { "type": "Point", "coordinates": [long, lat] }) Edm.GeographyPoint
기타 JSON 개체 해당 없음

Azure Cosmos DB 인덱서 구성 및 실행

인덱스와 데이터 원본이 만들어지면 인덱서를 만들 준비가 된 것입니다. 인덱서 구성은 런타임 동작을 제어하는 입력, 매개 변수 및 속성을 지정합니다.

  1. 이름을 지정하고 데이터 원본 및 대상 인덱스를 참조하여 인덱서를 만들거나 업데이트합니다.

    POST https://[service name].search.windows.net/indexers?api-version=2024-05-01-preview
    Content-Type: application/json
    api-key: [search service admin key]
    {
        "name" : "[my-cosmosdb-indexer]",
        "dataSourceName" : "[my-cosmosdb-gremlin-ds]",
        "targetIndexName" : "[my-search-index]",
        "disabled": null,
        "schedule": null,
        "parameters": {
            "batchSize": null,
            "maxFailedItems": 0,
            "maxFailedItemsPerBatch": 0,
            "base64EncodeKeys": false,
            "configuration": {}
            },
        "fieldMappings": [],
        "encryptionKey": null
    }
    
  2. 필드 이름 또는 형식이 다르거나 검색 인덱스에서 여러 버전의 원본 필드가 필요한 경우 필드 매핑을 지정합니다.

  3. 다른 속성에 대한 자세한 내용은 인덱서 만들기를 참조하세요.

인덱서가 만들어지면 자동으로 실행됩니다. 이는 "disabled"를 true로 설정하여 방지할 수 있습니다. 인덱서 실행을 제어하려면 요청 시 인덱서를 실행하거나 일정에 배치합니다.

인덱서 상태 확인

인덱서 상태 및 실행 기록을 모니터링하려면 인덱서 상태 가져오기 요청을 보냅니다.

GET https://myservice.search.windows.net/indexers/myindexer/status?api-version=2024-05-01-preview
  Content-Type: application/json  
  api-key: [admin key]

응답에는 상태 및 처리된 항목 수가 포함됩니다. 다음 예와 유사해야 합니다.

    {
        "status":"running",
        "lastResult": {
            "status":"success",
            "errorMessage":null,
            "startTime":"2022-02-21T00:23:24.957Z",
            "endTime":"2022-02-21T00:36:47.752Z",
            "errors":[],
            "itemsProcessed":1599501,
            "itemsFailed":0,
            "initialTrackingState":null,
            "finalTrackingState":null
        },
        "executionHistory":
        [
            {
                "status":"success",
                "errorMessage":null,
                "startTime":"2022-02-21T00:23:24.957Z",
                "endTime":"2022-02-21T00:36:47.752Z",
                "errors":[],
                "itemsProcessed":1599501,
                "itemsFailed":0,
                "initialTrackingState":null,
                "finalTrackingState":null
            },
            ... earlier history items
        ]
    }

실행 기록에는 최대 50개의 가장 최근에 완료된 실행이 포함되며, 가장 최근의 실행이 먼저 나오도록 시간 역순으로 정렬됩니다.

새 문서 및 변경된 문서 인덱싱

인덱서에서 검색 인덱스가 완전히 채워지면 후속 인덱서 실행에서 데이터베이스의 새 문서와 변경된 문서만 증분 방식으로 인덱싱할 수 있습니다.

증분 인덱싱을 사용하도록 설정하려면 데이터 원본 정의에서 "dataChangeDetectionPolicy" 속성을 설정합니다. 이 속성은 데이터에 사용되는 변경 내용 추적 메커니즘을 인덱서에 알려줍니다.

Azure Cosmos DB 인덱서의 경우 지원되는 유일한 정책은 Azure Cosmos DB에서 제공하는 _ts(타임스탬프) 속성을 사용하는 HighWaterMarkChangeDetectionPolicy입니다.

다음 예제에서는 변경 검색 정책이 있는 데이터 원본 정의를 보여 줍니다.

"dataChangeDetectionPolicy": {
    "@odata.type": "#Microsoft.Azure.Search.HighWaterMarkChangeDetectionPolicy",
"  highWaterMarkColumnName": "_ts"
},

삭제된 문서 인덱싱

그래프 데이터가 삭제되면 검색 인덱스에서 상응하는 문서도 삭제하는 것이 좋습니다. 데이터 삭제 검색 정책은 삭제된 데이터 항목을 효율적으로 식별하고 인덱스에서 전체 문서를 삭제하기 위한 것입니다. 데이터 삭제 검색 정책은 부분적인 문서 정보를 삭제하기 위한 것이 아닙니다. 현재 지원되는 유일한 정책은 다음과 같이 데이터 원본 정의에 지정된 Soft Delete 정책(삭제가 일종의 플래그로 표시됨)입니다.

"dataDeletionDetectionPolicy"": {
    "@odata.type" : "#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy",
    "softDeleteColumnName" : "the property that specifies whether a document was deleted",
    "softDeleteMarkerValue" : "the value that identifies a document as deleted"
}

다음 예제에서는 일시 삭제 정책을 사용하여 데이터 원본을 만듭니다.

POST https://[service name].search.windows.net/datasources?api-version=2024-05-01-preview
Content-Type: application/json
api-key: [Search service admin key]

{
    "name": "[my-cosmosdb-gremlin-ds]",
    "type": "cosmosdb",
    "credentials": {
        "connectionString": "AccountEndpoint=https://[cosmos-account-name].documents.azure.com;AccountKey=[cosmos-account-key];Database=[cosmos-database-name];ApiKind=Gremlin"
    },
    "container": { "name": "[my-cosmos-collection]" },
    "dataChangeDetectionPolicy": {
        "@odata.type": "#Microsoft.Azure.Search.HighWaterMarkChangeDetectionPolicy",
        "highWaterMarkColumnName": "`_ts`"
    },
    "dataDeletionDetectionPolicy": {
        "@odata.type": "#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy",
        "softDeleteColumnName": "isDeleted",
        "softDeleteMarkerValue": "true"
    }
}

삭제 검색 정책을 사용하도록 설정하더라도 복잡한 필드(Edm.ComplexType) 삭제는 인덱스에서 지원되지 않습니다. 이 정책에서 Gremlin 데이터베이스의 '활성' 열은 정수, 문자열 또는 부울 형식이어야 합니다.

그래프 데이터를 검색 인덱스의 필드에 매핑

Azure Cosmos DB for Apache Gremlin 인덱서는 다음과 같이 몇 가지 그래프 데이터를 자동으로 매핑합니다.

  1. 인덱서에서 _rid를 인덱스의 rid 필드에 매핑하고(있는 경우) Base64에서 인코딩합니다.

  2. 인덱서는 _id를 인덱스의 id 필드에 매핑합니다(있는 경우).

  3. Azure Cosmos DB for Apache Gremlin을 사용하여 Azure Cosmos DB 데이터베이스를 쿼리하는 경우 각 속성에 대한 JSON 출력에 idvalue가 있음을 알 수 있습니다. 인덱서는 value 속성을 해당 속성(있는 경우)과 이름이 동일한 검색 인덱스의 필드에 자동으로 매핑합니다. 다음 예제에서는 450이 검색 인덱스의 pages 필드에 매핑됩니다.

    {
        "id": "Cookbook",
        "label": "book",
        "type": "vertex",
        "properties": {
          "pages": [
            {
              "id": "48cf6285-a145-42c8-a0aa-d39079277b71",
              "value": "450"
            }
          ]
        }
    }

쿼리 출력을 인덱스의 필드에 매핑하려면 출력 필드 매핑을 사용해야 할 수 있습니다. 사용자 지정 쿼리에 복잡한 데이터가 있을 가능성이 높으므로 필드 매핑 대신 출력 필드 매핑을 사용하려 할 것입니다.

예를 들어 쿼리에서 다음 출력을 생성한다고 가정해 보겠습니다.

    [
      {
        "vertex": {
          "id": "Cookbook",
          "label": "book",
          "type": "vertex",
          "properties": {
            "pages": [
              {
                "id": "48cf6085-a211-42d8-a8ea-d38642987a71",
                "value": "450"
              }
            ],
          }
        },
        "written_by": [
          {
            "yearStarted": "2017"
          }
        ]
      }
    ]

위의 JSON에 있는 pages 값을 인덱스의 totalpages 필드에 매핑하려면 다음 출력 필드 매핑을 인덱서 정의에 추가하면 됩니다.

    ... // rest of indexer definition 
    "outputFieldMappings": [
        {
          "sourceFieldName": "/document/vertex/pages",
          "targetFieldName": "totalpages"
        }
    ]

어떻게 출력 필드 매핑이 /document로 시작하며 JSON의 속성 키에 대한 참조를 포함하지 않는지 확인하세요. 인덱서가 그래프 데이터를 수집할 때 /document 노드에 각 문서를 배치하기 때문입니다. 또한 인덱서를 사용하면 pages 배열의 첫 번째 개체를 참조해야 하는 것이 아니라 간단히 pages를 참조하여 pages 값을 참조할 수 있기 때문입니다.

다음 단계