了解索引處理序

索引處理序的運作方式是為每個已編製索引的實體，建立文件。在編製索引期間，擴充管線會反覆地建置文件，將資料來源的中繼資料與認知技能所擷取的擴充欄位合併。您可以將每個已編製過索引的文件視為 JSON 結構，一開始由文件所組成，而其索引欄位已對應至直接擷取自來源資料的欄位，如下所示：

當資料來源中的文件包含影像時，您可以設定索引器來擷取影像資料，並將每個影像置於 normalized_images 集合中，如下所示：

以這種方式標準化影像資料，您即可使用影像集合作為從影像資料擷取資訊的技能輸入。

每項技能都會將欄位新增至文件，例如，偵測撰寫文件所用語言的技能，可能會將其輸出儲存在 [語言] 欄位中，如下所示：

本文件的結構為階層方式，技能適用於該階層內特定的內容，讓您可以為文件特定層級的每個項目執行技能。例如，可以針對標準化影像集合中的每個影像，執行光學字元辨識 (OCR) 技能，以擷取其包含的所有文字：

每項技能的輸出欄位都可用於作為管線中其他技能的輸入，接著將「這些技能」的輸出儲存於文件結構中。例如，我們可以使用合併技能，來合併原始文字內容與從每個影像中所擷取出的文字，建立新的 merged_content 欄位，內含文件中的所有文字 (包括影像文字)。

索引器會使用下列兩種方式之一，將管線結尾最終文件結構內的欄位，對應至索引欄位：

直接擷取自來源資料的欄位，都會對應至索引欄位。這些對應可能很隱晦 (欄位會自動對應至索引中具有相同名稱的欄位) 或很明確 (將會定義對應，將來源欄位與索引欄位相匹配，通常會將欄位重新命名為更實用的欄位，或是在對應時，對資料套用函式)。
技能集中技能的輸出欄位，會明確地從其在輸出中的階層式位置，對應至索引中的目標欄位。

意見反應