Влияние средств разбиения текста на слова, парадигматических модулей и файлов пропускаемых слов на результаты поиска (Search Server 2008)

Note Примечание:

Если не указано иное, содержащаяся в данной статье информация относится как к серверу Microsoft Search Server 2008, так и к серверу Microsoft Search Server 2008 Express.

Компонентами процессов индексирования и обработки запросов служат средства разбиения текста на слова, парадигматические модули и файлы пропускаемых слов (которые также называются файлами стоп-слов).

Содержание:

  • Средства разбиения текста на слова

  • Парадигматические модули

  • Файлы пропускаемых слов

Средства разбиения текста на слова

Компонент разбиения текста на слова используется для разделения текстовых строк на отдельные слова в процессе индексирования и обработки запросов. В ходе индексирования текст извлекается из элементов контента, таких как целые символьные строки. Средства разбиения текста на слова запоминают позиции начала и конца каждого слова в символьной строке. Кроме того, средства разбиения текста на слова разделяют составные слова, чтобы пользователи получали результаты запроса, относящиеся к части исходного составного слова, а также к отдельным элементам, образующим составное слово. Средства разбиения текста на слова также преобразуют числа и даты из элементов контента в стандартный формат.

Для каждого языка используется собственное средство разбиения текста на слова. Подсистема индексирования выбирает используемое средство разбиения текста на слова, и в случае, если обнаруживается наличие нескольких языков, в одном документе для текста может применяться несколько средств разбиения на слова.

Обработчик запросов также использует средства разбиения текста на слова. Когда пользователь отправляет запрос, с помощью средства разбиения текста на слова разделяются составные слова и фразы. Это повышает вероятность нахождения в индексе контента выражений, соответствующих запросу пользователя. В ходе обработки запроса язык для средства разбиения текста на слова определяется языком веб-браузера пользователя.

По умолчанию Search Server 2008 устанавливает средства разбиения текста на слова, указанные в следующей таблице, на каждом сервере в ферме Поисковый сервер.

Арабский

Венгерский

Пенджаби

Бенгальский

Исландский

Румынский

Болгарский

Индонезийский

Русский

Каталанский

Итальянский

Сербский (кириллица)

Хорватский

Японский

Сербский (латиница)

Чешский

Каннада

Словацкий

Датский

Корейский

Словенский

Голландский

Латышский

Испанский

Английский

Литовский

Шведский

Финский

Малайский

Тамильский

Французский

Малаялам

Телугу

Немецкий

Маратхи

Тайский

Греческий

Норвежский (букмол)

Турецкий

Гуджарати

Польский

Украинский

Иврит

Португальский

Урду

Хинди

Португальский (Бразилия)

Вьетнамский

Парадигматические модули

Парадигматический модуль — это компонент, который определяет корень выражения и может создавать различные варианты выражения. Например, в английском языке, если запрос содержит слово "bought", то парадигматический модуль может добавить к запросу корень "buy", а также создать различные варианты этого выражения ("buys", "buying" и т.д.) и добавить их запросу.

Парадигматические модули определяются языком и обладают различными возможностями в зависимости от поддерживаемого языка. Некоторые парадигматические модули выделяют корень, однако не создают дополнительные формы слов.

Note Примечание:

Парадигматические модули существуют для всех языков, для которых есть средство разбиения текста на слова и поддерживается выделение корней. Для некоторых языков парадигматические модули устанавливаются, но не включаются. Чтобы включить такие модули, нужно внести изменения в реестр. Инструкции по включению парадигматических модулей для таких языков см. в разделе Включение средств разбиения текста на слова и парадигматических модулей в SharePoint Server 2007(на английском языке) (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x419).

Файлы пропускаемых слов

В языке существуют слова, которые бесполезны при выполнении поиска. Например, в английском языке артикли "the" и "an" имеют минимальную ценность для поиска, поскольку они содержатся практически во всех документах, написанных на английском. Слова, которые бесполезны для поиска, называются пропускаемыми словами или стоп-словами. В ходе индексирования пропускаемые слова удаляются, чтобы сохранить небольшой размер индекса и повысить производительность. Пропускаемые слова перечислены в текстовых файлах для каждого языка. Эти файлы можно изменять, но удаление или добавление слов в файле пропускаемых слов вызывает необходимость полного обхода контента.

Файлы пропускаемых слов значительно изменились по сравнению с предыдущими версиями продуктов SharePoint. Многие пропускаемые слова, ранее входившие в файлы пропускаемых слов, удалены из файлов Поисковый сервер и включены в индексы контента. По умолчанию пользователи могут выполнять запросы со словами, которые ранее считались пропускаемыми. Такие запросы называются запросами пропускаемых слов. Подобные операции поиска можно запретить в веб-части "Основные результаты поиска". Кроме того, если запрос содержит строку в кавычках, в которую входит пропускаемое слово, то в результатах запроса это слово может заменяться любым другим. Например, если запрос содержит строку "configure a server", то в результаты запроса будут включены элементы контента, содержащие строку "configure the server", и элементы со строкой "configure every server".

Note Примечание:

Не удаляйте все слова из файла пропускаемых слов. Файл пропускаемых слов должен содержать по крайней мере одну запись, даже если это просто точка (.)

См. также

Понятия

Управление настройками для улучшения результатов поиска (Search Server 2008)
Настройка достоверных страниц (Search Server 2008)
Добавление ключевых терминов к наиболее подходящим элементам (Search Server 2008)