多模式內嵌 (4.0 版)

多模式內嵌是產生影像的向量表示，以擷取其特徵和特性的流程。這些向量會以與相同向量空間上的文字搜尋相容的方式來編碼影像的內容和背景。

影像擷取系統傳統上使用從影像擷取的功能，例如內容標籤、標記和影像描述項，以比較影像並依相似性排名。不過，向量相似性搜尋因為比傳統關鍵字型搜尋擁有更多優點，而成為熱門內容搜尋服務中的重要元件。

向量搜尋和關鍵字搜尋之間的差異

關鍵字搜尋是資訊擷取最基本且傳統的方法。在此方法中，搜尋引擎會尋找與使用者在搜尋查詢中輸入的關鍵字或片語完全相符的項目，並與提供給影像的標籤和標記進行比較。然後，搜尋引擎會傳回其內容標記和影像標籤包含這些確切關鍵字的影像。關鍵字搜尋高度仰賴使用者使用相關及特定搜尋字詞的能力。

向量搜尋會在高維度空間中搜尋大量的向量集合，以尋找類似查詢指定的向量。向量搜尋會藉由擷取搜尋查詢的內容和意義來查看語意相似性。這種方法通常比傳統影像擷取技術更有效率，因為其可以減少搜尋空間並改善結果的正確性。

多模式內嵌在不同領域中有各種不同的應用程式，包括：

警告

多模式內嵌的目的並非用於分析診斷特徵或疾病模式的醫療影像。請勿針對醫療目的使用多模式內嵌。

向量內嵌是表示內容 (文字或影像) 的方式，可作為高維度空間中實數的向量。向量內嵌通常會使用機器學習演算法從大量的文字和視覺資料中學習，例如神經網路。

向量的每個維度都會對應至內容的不同特徵或屬性，例如其語意意義、語法角色或通常出現的內容。在 Azure AI 視覺中，影像和文字向量內嵌具有 1024 個維度。

重要

如果向量內嵌來自相同的模型類型，才能進行有意義的比較和比對。由一個模型向量化的影像無法透過不同的模型搜尋。最新的影像分析 API 提供兩種模型：版本 2023-04-15 支援多種語言的文字搜尋，以及僅支援英文的舊版 2022-04-11 模型。

以下是使用多模式內嵌的影像擷取流程的主要步驟。

多模式內嵌/影像擷取流程的圖表。

向量化影像和文字：多模式內嵌 API，VectorizeImage 和 VectorizeText 可用來分別從影像或文字中擷取特徵向量。 API 會傳回代表整個輸入的單一特徵向量。

注意

多模式內嵌不會對人臉進行任何生物特徵辨識處理。如需臉部偵測和識別，請參閱 Azure AI 臉部服務。
測量相似度：向量搜尋系統通常會使用距離指標，例如餘弦距離或 Euclidean 距離，以比較向量，並依相似度加以排名。 Vision Studio 示範使用餘弦距離來測量相似度。
擷取影像：使用與搜尋查詢類似的前 N 個向量，並從相片庫擷取對應到這些向量的影像，以提供作為最終結果。

影像輸入

文字輸入

為您的搜尋服務啟用多模式內嵌，並遵循步驟以產生文字和影像的向量內嵌。