管理同义词库文件 (SharePoint Server 2010)

 

适用于: SharePoint Server 2010

上一次修改主题: 2015-03-09

通过使用同义词库文件,搜索管理员可指定在搜索查询中发生的词或短语的替换或同义词。

  • 指定查询词或短语的替换   搜索管理员可将一个或多个词或短语指定为用户可能在搜索框中键入的特定词或短语的替换。例如,管理员可能会指定每当“Longhorn”一词在查询中显示时,搜索系统都将其替换为“Windows Vista”或“Vista”。同样,管理员可能会指定每当“NT5”一词或“W2K”一词在查询中显示时,搜索系统都将其替换为“Windows 2000”。

    为指定查询词或短语的替换,搜索管理员应将替换集 插入到同义词库文件中。有关详细信息,请参阅下文的使用替换集。

  • 指定查询词或短语的同义词   搜索管理员可将一个或多个词或短语指定为用户可能在搜索框中键入的特定词或短语的同义词。例如,管理员可能会将“IE”、“IE8”和“Internet Explorer”互相指定为同义词。当以上任一词显示在查询中时,系统还会搜索其他词。因此,对以上三个词之一进行查询都会返回包含“IE”、“IE8”或“Internet Explorer”的搜索结果。

    为指定查询词或短语的同义词,搜索管理员应将扩展集 插入到同义词库文件中。有关详细信息,请参阅下文中的使用扩展集。

本文内容:

  • 了解同义词库文件

  • 使用替换集

  • 使用扩展集

  • 将自定义词典用于同义词库文件

  • 编辑同义词库文件

  • 按语言列出的同义词库文件

了解同义词库文件

Microsoft SharePoint Server 2010 安装程序将安装产品支持的每种语言的同义词库文件。安装还提供中性语言同义词库文件,名为 tsneu.xml。在查询处理过程中,无论是否有特定于查询语言的同义词库文件,此文件都适用于所有查询。有关详细信息,请参阅下文中的按语言列出的同义词库文件。

默认情况下,SharePoint Server 2010 会在 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Server\Config 处安装所有支持语言的同义词库文件。当搜索管理员创建 Search Service 应用程序时,搜索系统会自动将同义词库文件从安装位置(包括管理员在那里编辑的任何同义词库文件)复制到 %ProgramFiles%\Microsoft Office Servers\14.0\Data\Office Server\Applications\GUID-query-0\Config,其中 GUID 是新 Search Service 应用程序的 GUID。搜索系统在运行新 Search Service 应用程序的每台查询服务器上执行相同的操作。因此,运行该 Search Service 应用程序的每台查询服务器上都有每个同义词库文件的一个副本。

安装后,每个同义词库文件都仅包含不活动的注释示例内容,因此必须先对同义词库文件进行编辑,搜索系统才能使用它。除了替换集和扩展集外,同义词库文件还包含一个指定搜索系统是忽略还是包含发音符(如重音符)的“diacritics_sensitive”标记。情况默认下,diacritics_sensitive 设置为 0 以便忽略发音符。若要使搜索系统包含发音符,请将 diacritics_sensitive 的值更改为 1。

以下是同义词库文件中默认 XML 的示例:

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out

    <thesaurus xmlns="x-schema:tsSchema.xml">
        <diacritics_sensitive>0</diacritics_sensitive>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE8</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

使用替换集

搜索管理员可将替换集 插入到同义词库文件中,以将一个或多个词或短语指定为用户可能会在搜索框中键入的特定词或短语的替换。同义词库文件中的每个替换集都包含在 <replacement> 标记内。在替换集中,管理员通过将每个词或短语包含在 <pat>(模式)标记中来指定要替换的一个或多个查询词或短语,并通过将每个替换包含在 <sub>(替换)标记中来指定一个或多个替换。例如,以下替换集会将查询词“Longhorn”替换为“Windows Vista”或“Vista”。

<replacement>
    <pat>Longhorn</pat>
    <sub>Windows Vista</sub>
    <sub>Vista</sub>
</replacement>

同样,下面的示例显示指定将查询词“NT5”和“W2K”替换为“Windows 2000”的替换集。

<replacement>
    <pat>W2K</pat>
    <pat>NT5</pat>  
    <sub>Windows 2000</sub>
</replacement>

通过指定具有空替换的模式,搜索管理员可指定对特定词的查询不返回结果。在下面的示例中,对“bugs”一词的查询不会返回任何结果:

<replacement>
    <pat>bugs</pat>    
    <sub></sub>
</replacement>

使用扩展集

搜索管理员可在同义词库文件中使用扩展集,以便将一个或多个词或短语互相指定为同义词。可以扩展包含扩展集中的任意词或短语的搜索查询,以包括扩展集中的所有同义词。因此,包含扩展集中的任意词或短语的搜索查询还会返回包含集中的任意同义词的搜索结果。

每个扩展集都包含在 <expansion> 标记内。在扩展集中,管理员可通过将每个同义词都包含在 <sub> 标记内来指定一个或多个同义词。例如,搜索管理员可能需要指定一个扩展集来将以下三个词指定为同义词:writer、author 和 blogger。为指定此扩展集,搜索管理员应向同义词库文件中添加以下行:

<expansion>
    <sub>writer</sub>
    <sub>author</sub>
    <sub>blogger</sub>
</expansion>

此扩展集指定对以上三个词之一的查询还返回包含其他任一或两个词的搜索结果。

将自定义词典用于同义词库文件

指定语言的分词系统将根据该语言的词汇规则确定划分字词的范围,从而标识单个字词。如果将分词系统无法识别为单个词的字词包括在同义词库文件中,则还应将其包括在自定义词典中,这样分词系统就不会将其拆分为更小的标记。例如,如果在扩展集中使用单词“IT&T”,但却未将其包括在自定义词典中,则分词系统可能会将该词拆分为三个单独的词“IT”、“&”和“T”。这会导致当用户对“IT&T”进行搜索查询时,同义词库文件中的扩展集不能按预期方式运行。有关如何创建和使用自定义词典的信息,请参阅创建自定义词典 (SharePoint Server 2010)

编辑同义词库文件

如果在安装位置编辑同义词库文件,则搜索系统会自动将编辑的文件传播至后面创建的 Search Service 应用程序。但是,编辑的同义词库文件不会自动传播到现有 Search Service 应用程序。对于要对其应用更改的每个现有 Search Service 应用程序,必须手动将编辑的文件复制到运行该 Search Service 应用程序的每个查询服务器上的 Search Service 应用程序文件夹。

备注

  • 一个名为 tsschema.xml 的文件将与同义词库文件安装在同一个目录中。请勿修改此 tsschema.xml 文件。其他所有同义词库文件都使用此文件,更改此文件可能会导致不可预测的结果。

  • 每个 <pat><sub> 标记在同义词库文件中都计为一个项目。通常,同义词库文件包含约 1,000 个项目。出于性能原因,同义词库文件中的项目不应超过约 10,000 个,这一点很重要。

  • 如果在同义词库文件中使用在非索引字文件中指定的词,则搜索系统会将那些词从同义词库文件中筛选出来。有关详细信息,请参阅管理非索引字文件 (SharePoint Server 2010)

  • 同义词库文件项不能仅包含特殊字符。

使用下列步骤编辑同义词库文件。

备注

编辑文件时,必须对文件中的每个条目成对使用相匹配的开始和结束标记。如果同义词库文件中的 XML 标记不匹配,将在应用程序事件日志中记录一条错误。

编辑同义词库文件

  1. 确保执行此过程的用户帐户是本地计算机上 Administrators 组的成员。

  2. 在文本编辑器中打开同义词库文件。有关如何查找和标识相应同义词库文件的信息,请参阅上文中的了解同义词库文件。

  3. 如果是首次对同义词库文件进行更改,请删除文件开头的 <!-- Commented out 批注行以及文件末尾的 --> 批注行。

  4. 必要时对同义词库文件进行编辑。

  5. 保存该同义词库文件。

    备注

    当保存同义词库文件时,请始终使用默认“编码”值(即“Unicode”)。

重新启动 SharePoint Server Search 14 服务

编辑同义词库文件后,必须重新启动 SharePoint Server Search 14 服务,更改才能生效。对同义词库文件所做的更改在 SharePoint Server Search 14 服务重新启动后生效。不必执行爬网操作,更改即可生效。

重新启动 SharePoint Server Search 14 服务

  1. 确保执行此过程的用户帐户是本地计算机上 Administrators 组的成员。

  2. 单击“开始”,指向“管理工具”,然后单击“服务”。

  3. 右键单击“SharePoint Server Search 14”,然后单击“重新启动”。

    对同义词库文件所做的更改在 SharePoint Server Search 14 服务重新启动后生效。

按语言列出的同义词库文件

以下同义词库文件是自动安装的,并且可以使用。

语言 文件名

中性语言

tsneu.xml

阿拉伯语

tsara.xml

孟加拉语

tsben.xml

保加利亚语

tsbul.xml

加泰罗尼亚语

tscat.xml

简体中文

tschs.xml

繁体中文

tscht.xml

克罗地亚语

tscro.xml

捷克语

tsces.xml

丹麦语

tsdan

荷兰语(荷兰)

tsnld.xml

英语(英国)

tseng.xml

英语(美国)

tsenu.xml

芬兰语

tsfin.xml

法语(标准)

tsfra.xml

德语(标准)

tsdeu.xml

古吉拉特语

tsguj.xml

匈牙利语

tshun.xml

冰岛语

tsice.xml

印度尼西亚语

tsind.xml

意大利语

tsita.xml

日语

tsjpn.xml

埃纳德语

tskan.xml

朝鲜语

tskor.xml

立陶宛语

tslit.xml

马来语(马来西亚)

tsmal.xml

马拉雅拉姆语

tsmly.xml

马拉地语

tsmar.xml

挪威语(博克马尔语)

tsnor.xml

波兰语

tsplk.xml

葡萄牙语(巴西)

tsptb.xml

葡萄牙语(葡萄牙)

tspor.xml

旁遮普语

tspun.xml

罗马尼亚语

tsrom.xml

俄语

tsrus.xml

塞尔维亚语(西里尔文)

tssbc.xml

塞尔维亚语(拉丁语系)

tssbl.xml

斯洛伐克语

tssvk.xml

斯洛文尼亚语

tsslo.xml

西班牙语

tsesn.xml

瑞典语

tssve.xml

泰米尔语

tstam.xml

泰卢固语

tstel.xml

泰语

tstha.xml

土耳其语

tstur.xml

乌克兰语

tsukr.xml

乌尔都语(巴基斯坦)

tsurd.xml

越南语

tsvie.xml

See Also

Concepts

创建自定义词典 (SharePoint Server 2010)
管理非索引字文件 (SharePoint Server 2010)