多模式內嵌 (4.0 版)

多模式內嵌是產生影像的向量表示,以擷取其特徵和特性的流程。 這些向量會以與相同向量空間上的文字搜尋相容的方式來編碼影像的內容和背景。

影像擷取系統傳統上使用從影像擷取的功能,例如內容標籤、標記和影像描述項,以比較影像並依相似性排名。 不過,向量相似性搜尋因為比傳統關鍵字型搜尋擁有更多優點,而成為熱門內容搜尋服務中的重要元件。

關鍵字搜尋是資訊擷取最基本且傳統的方法。 在此方法中,搜尋引擎會尋找與使用者在搜尋查詢中輸入的關鍵字或片語完全相符的項目,並與提供給影像的標籤和標記進行比較。 然後,搜尋引擎會傳回其內容標記和影像標籤包含這些確切關鍵字的影像。 關鍵字搜尋高度仰賴使用者使用相關及特定搜尋字詞的能力。

向量搜尋會在高維度空間中搜尋大量的向量集合,以尋找類似查詢指定的向量。 向量搜尋會藉由擷取搜尋查詢的內容和意義來查看語意相似性。 這種方法通常比傳統影像擷取技術更有效率,因為其可以減少搜尋空間並改善結果的正確性。

商務應用程式

多模式內嵌在不同領域中有各種不同的應用程式,包括:

  • 數位資產管理:多模式影像內嵌可用來管理大型數位影像集合,例如在博物館、典藏或線上藝廊中的影像。 使用者可以根據視覺特徵搜尋影像,並擷取符合其準則的影像。
  • 安全性和監視:向量化可用於安全性和監視系統中,根據特定特徵或模式來搜尋影像,例如人員和物件追蹤,或威脅偵測中的影像。
  • 鑒識影像擷取:向量化可用於鑒識調查,根據影像的視覺內容或中繼資料來搜尋影像,例如網路犯罪的情況。
  • 電子商務:向量化可用於線上購物應用程式中,根據其特徵或描述搜尋類似產品,或根據先前購買提供建議。
  • 外型與設計:向量化可用於外型和設計,根據視覺特徵搜尋影像,例如色彩、圖樣或紋理。 這可協助設計人員或零售商識別類似的產品或趨勢。

警告

多模式內嵌的目的並非用於分析診斷特徵或疾病模式的醫療影像。 請勿針對醫療目的使用多模式內嵌。

什麼是向量內嵌?

向量內嵌是表示內容 (文字或影像) 的方式,可作為高維度空間中實數的向量。 向量內嵌通常會使用機器學習演算法從大量的文字和視覺資料中學習,例如神經網路。

向量的每個維度都會對應至內容的不同特徵或屬性,例如其語意意義、語法角色或通常出現的內容。 在 Azure AI 視覺中,影像和文字向量內嵌具有 1024 個維度。

重要

如果向量內嵌來自相同的模型類型,才能進行有意義的比較和比對。 由一個模型向量化的影像無法透過不同的模型搜尋。 最新的影像分析 API 提供兩種模型:版本 2023-04-15 支援多種語言的文字搜尋,以及僅支援英文的舊版 2022-04-11 模型。

如何運作?

以下是使用多模式內嵌的影像擷取流程的主要步驟。

多模式內嵌/影像擷取流程的圖表。

  1. 向量化影像和文字:多模式內嵌 API,VectorizeImageVectorizeText 可用來分別從影像或文字中擷取特徵向量。 API 會傳回代表整個輸入的單一特徵向量。

    注意

    多模式內嵌不會對人臉進行任何生物特徵辨識處理。 如需臉部偵測和識別,請參閱 Azure AI 臉部服務

  2. 測量相似度:向量搜尋系統通常會使用距離指標,例如餘弦距離或 Euclidean 距離,以比較向量,並依相似度加以排名。 Vision Studio 示範使用餘弦距離來測量相似度。
  3. 擷取影像:使用與搜尋查詢類似的前 N 個向量,並從相片庫擷取對應到這些向量的影像,以提供作為最終結果。

相關性分數

影像和影片擷取服務會傳回稱為「相關性」的字段。「相關性」一詞表示查詢和影像或視訊框架內嵌之間相似度的量值。 相關性分數是由兩個部分所組成:

  1. 查詢與影像或視訊框架內嵌之間的餘弦相似性 (落在 [0,1] 的範圍內)。
  2. 中繼資料分數,反映查詢及和影像或視訊框架相關聯的中繼資料之間的相似度。

重要

相關性分數是實用的量值,可針對如影像或視訊框架的單一查詢排序結果。 不過,無法準確地比較查詢的相關性分數。 因此,無法輕鬆地將相關性分數對應至信賴等級。 也不可能只根據相關性分數就輕鬆地建立閾值演算法,來消除不相關的結果。

輸入需求

影像輸入

  • 影像的檔案大小必須小於 20 MB
  • 影像的維度必須大於 10 x 10 像素,且小於 16,000 x 16,000 像素

文字輸入

  • 文字字串必須介於 (包括) 一個單字和 70 個字之間。

下一步

為您的搜尋服務啟用多模式內嵌,並遵循步驟以產生文字和影像的向量內嵌。