다중 모달 포함(버전 4.0)

다중 모달 포함은 해당 기능과 특성을 캡처하는 이미지의 벡터 표현을 생성하는 프로세스입니다. 이러한 벡터는 동일한 벡터 공간에 대한 텍스트 검색과 호환되는 방식으로 이미지의 콘텐츠와 컨텍스트를 인코딩합니다.

이미지 검색 시스템은 전통적으로 콘텐츠 레이블, 태그 및 이미지 설명자와 같은 이미지에서 추출된 기능을 사용하여 이미지를 비교하고 유사성에 따라 순위를 매겼습니다. 그러나 벡터 유사성 검색은 기존의 키워드 기반 검색에 비해 많은 이점으로 인해 많은 이점이 있으며 자주 사용되는 콘텐츠 검색 서비스에서 중요한 구성 요소가 되고 있습니다.

키워드 검색은 가장 기본적이고 전통적인 정보 검색 방법입니다. 이러한 접근 방식에서 검색 엔진은 사용자가 검색 쿼리에 입력한 키워드 또는 구와 정확히 일치하는 항목을 찾아 이미지에 제공된 레이블 및 태그와 비교합니다. 그런 다음 검색 엔진은 콘텐츠 태그 및 이미지 레이블과 같은 정확한 키워드를 포함하는 이미지를 반환합니다. 키워드 검색은 관련성 있고 구체적인 검색어를 사용하는 사용자의 기능에 크게 의존합니다.

벡터 검색은 지정된 쿼리와 유사한 벡터를 찾기 위해 고차원 공간에서 많은 벡터 컬렉션을 검색합니다. 벡터 검색은 검색 쿼리의 컨텍스트와 의미를 캡처하여 의미 체계 유사성을 찾습니다. 이 방식은 검색 공간을 줄이고 결과의 정확도를 높일 수 있으므로 기존의 이미지 검색 기술보다 더 효율적인 경우가 많습니다.

비즈니스 애플리케이션

다중 모달 포함에는 다음을 비롯한 다양한 필드에 다양한 애플리케이션이 있습니다.

  • 디지털 자산 관리: 다중 모달 포함을 사용하여 박물관, 기록 보관소 또는 온라인 갤러리와 같은 대규모 디지털 이미지 컬렉션을 관리할 수 있습니다. 사용자는 시각적 기능을 기반으로 이미지를 검색하고 조건에 맞는 이미지를 검색할 수 있습니다.
  • 보안 및 감시: 벡터화는 보안 및 감시 시스템에서 사람 및 개체 추적, 위협 탐지와 같은 특정 기능이나 패턴을 기반으로 이미지를 검색하는 데 사용될 수 있습니다.
  • 포렌식 이미지 검색: 벡터화는 법의학 조사에 사용하여 사이버 범죄의 경우와 같이 시각적 콘텐츠 또는 메타데이터를 기반으로 이미지를 검색할 수 있습니다.
  • 전자 상거래: 온라인 쇼핑 애플리케이션에서 벡터화를 사용하여 기능 또는 설명에 따라 유사한 제품을 검색하거나 이전 구매를 기반으로 권장 사항을 제공할 수 있습니다.
  • 패션 및 디자인: 벡터화는 패션 및 디자인에서 색, 패턴 또는 질감과 같은 시각적 특징을 기반으로 이미지를 검색하는 데 사용할 수 있습니다. 이는 디자이너나 소매점이 유사한 제품이나 추세를 식별하는 데 도움이 될 수 있습니다.

주의

다중 모달 포함은 진단 기능 또는 질병 패턴에 대한 의료 이미지를 분석하기 위해 고안된 것은 아닙니다. 의료 목적으로 다중 모달 포함을 사용하지 마세요.

벡터 포함이란?

벡터 포함은 콘텐츠(텍스트 또는 이미지)를 고차원 공간에서 실수 벡터로 나타내는 방법입니다. 벡터 포함은 종종 신경망과 같은 기계 학습 알고리즘을 사용하여 대량의 텍스트 및 시각적 데이터에서 학습됩니다.

벡터의 각 차원은 의미 체계 의미, 구문론적 역할 또는 일반적으로 나타나는 컨텍스트와 같은 콘텐츠의 다른 기능 또는 특성에 해당합니다. Azure AI 비전에서 이미지 및 텍스트 벡터 포함에는 1024개의 차원이 있습니다.

Important

벡터 포함은 동일한 모델 형식의 경우에만 비교 및 일치시킬 수 있습니다. 한 모델로 벡터화된 이미지는 다른 모델을 통해 검색할 수 없습니다. 최신 이미지 분석 API는 여러 언어의 텍스트 검색을 지원하는 버전 2023-04-15와/과 영어만 지원하는 레거시 2022-04-11 모델의 두 가지 모델을 제공합니다.

작동 방식

다음은 다중 모달 포함을 사용하는 이미지 검색 프로세스의 주요 단계입니다.

다중 모달 포함/이미지 검색 프로세스의 다이어그램

  1. 이미지 및 텍스트 벡터화: 다중 모달 포함 API인 VectorizeImageVectorizeText를 사용하여 각각 이미지 또는 텍스트에서 기능 벡터를 추출할 수 있습니다. API는 전체 입력을 나타내는 단일 기능 벡터를 반환합니다.

    참고 항목

    다중 모달 포함은 사람의 얼굴을 생체 인식 처리하지 않습니다. 얼굴 감지 및 식별은 Azure AI Face 서비스를 참조하세요.

  2. 유사성 측정: 벡터 검색 시스템은 일반적으로 코사인 거리 또는 유클리드 거리와 같은 거리 메트릭을 사용하여 벡터를 비교하고 유사성에 따라 순위를 매깁니다. Vision studio 데모는 코사인 거리를 사용하여 유사성을 측정합니다.
  3. 이미지 검색: 검색 쿼리와 유사한 상위 N 벡터를 사용하고 사진 보관함에서 해당 벡터에 해당하는 이미지를 검색하여 최종 결과로 제공합니다.

관련성 점수

이미지 및 비디오 검색 서비스는 "관련성"이라는 필드를 반환합니다. "관련성"이라는 용어는 쿼리와 이미지 또는 비디오 프레임 포함 간의 유사성 측정값을 나타냅니다. 관련성 점수는 다음 두 부분으로 구성됩니다.

  1. 쿼리와 이미지 또는 비디오 프레임 포함 간의 코사인 유사성([0,1] 범위에 속함)입니다.
  2. 쿼리와 이미지 또는 비디오 프레임과 연결된 메타데이터 간의 유사성을 반영하는 메타데이터 점수입니다.

Important

관련성 점수는 단일 쿼리와 관련하여 이미지 또는 비디오 프레임과 같은 결과의 순위를 지정하는 좋은 측정값입니다. 그러나 관련성 점수는 쿼리 간에 정확하게 비교할 수 없습니다. 따라서 관련성 점수를 신뢰 수준에 쉽게 매핑할 수 없습니다. 관련성 점수만을 기준으로 관련 없는 결과를 제거하는 임계값 알고리즘을 간단하게 만들 수도 없습니다.

입력 요구 사항

이미지 입력

  • 이미지의 파일 크기가 20MB보다 작아야 합니다.
  • 이미지의 크기는 10x10픽셀보다 크고 16,000x16,000픽셀보다 작아야 합니다.

문자 입력

  • 텍스트 문자열은 단어 1개와 단어 70개 사이여야 합니다.

다음 단계

검색 서비스에 다중 모달 포함을 사용하도록 설정하고 단계에 따라 텍스트 및 이미지에 대한 벡터 포함을 생성합니다.