Влияние средств разбиения текста на слова, парадигматических модулей и файлов пропускаемых слов на результаты поиска (Search Server 2008)
Примечание: |
---|
Если не указано иное, содержащаяся в данной статье информация относится как к серверу Microsoft Search Server 2008, так и к серверу Microsoft Search Server 2008 Express. |
Компонентами процессов индексирования и обработки запросов служат средства разбиения текста на слова, парадигматические модули и файлы пропускаемых слов (которые также называются файлами стоп-слов).
Содержание:
Средства разбиения текста на слова
Парадигматические модули
Файлы пропускаемых слов
Средства разбиения текста на слова
Компонент разбиения текста на слова используется для разделения текстовых строк на отдельные слова в процессе индексирования и обработки запросов. В ходе индексирования текст извлекается из элементов контента, таких как целые символьные строки. Средства разбиения текста на слова запоминают позиции начала и конца каждого слова в символьной строке. Кроме того, средства разбиения текста на слова разделяют составные слова, чтобы пользователи получали результаты запроса, относящиеся к части исходного составного слова, а также к отдельным элементам, образующим составное слово. Средства разбиения текста на слова также преобразуют числа и даты из элементов контента в стандартный формат.
Для каждого языка используется собственное средство разбиения текста на слова. Подсистема индексирования выбирает используемое средство разбиения текста на слова, и в случае, если обнаруживается наличие нескольких языков, в одном документе для текста может применяться несколько средств разбиения на слова.
Обработчик запросов также использует средства разбиения текста на слова. Когда пользователь отправляет запрос, с помощью средства разбиения текста на слова разделяются составные слова и фразы. Это повышает вероятность нахождения в индексе контента выражений, соответствующих запросу пользователя. В ходе обработки запроса язык для средства разбиения текста на слова определяется языком веб-браузера пользователя.
По умолчанию Search Server 2008 устанавливает средства разбиения текста на слова, указанные в следующей таблице, на каждом сервере в ферме Поисковый сервер.
Арабский |
Венгерский |
Пенджаби |
Бенгальский |
Исландский |
Румынский |
Болгарский |
Индонезийский |
Русский |
Каталанский |
Итальянский |
Сербский (кириллица) |
Хорватский |
Японский |
Сербский (латиница) |
Чешский |
Каннада |
Словацкий |
Датский |
Корейский |
Словенский |
Голландский |
Латышский |
Испанский |
Английский |
Литовский |
Шведский |
Финский |
Малайский |
Тамильский |
Французский |
Малаялам |
Телугу |
Немецкий |
Маратхи |
Тайский |
Греческий |
Норвежский (букмол) |
Турецкий |
Гуджарати |
Польский |
Украинский |
Иврит |
Португальский |
Урду |
Хинди |
Португальский (Бразилия) |
Вьетнамский |
Парадигматические модули
Парадигматический модуль — это компонент, который определяет корень выражения и может создавать различные варианты выражения. Например, в английском языке, если запрос содержит слово "bought", то парадигматический модуль может добавить к запросу корень "buy", а также создать различные варианты этого выражения ("buys", "buying" и т.д.) и добавить их запросу.
Парадигматические модули определяются языком и обладают различными возможностями в зависимости от поддерживаемого языка. Некоторые парадигматические модули выделяют корень, однако не создают дополнительные формы слов.
Примечание: |
---|
Парадигматические модули существуют для всех языков, для которых есть средство разбиения текста на слова и поддерживается выделение корней. Для некоторых языков парадигматические модули устанавливаются, но не включаются. Чтобы включить такие модули, нужно внести изменения в реестр. Инструкции по включению парадигматических модулей для таких языков см. в разделе Включение средств разбиения текста на слова и парадигматических модулей в SharePoint Server 2007(на английском языке) (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x419). |
Файлы пропускаемых слов
В языке существуют слова, которые бесполезны при выполнении поиска. Например, в английском языке артикли "the" и "an" имеют минимальную ценность для поиска, поскольку они содержатся практически во всех документах, написанных на английском. Слова, которые бесполезны для поиска, называются пропускаемыми словами или стоп-словами. В ходе индексирования пропускаемые слова удаляются, чтобы сохранить небольшой размер индекса и повысить производительность. Пропускаемые слова перечислены в текстовых файлах для каждого языка. Эти файлы можно изменять, но удаление или добавление слов в файле пропускаемых слов вызывает необходимость полного обхода контента.
Файлы пропускаемых слов значительно изменились по сравнению с предыдущими версиями продуктов SharePoint. Многие пропускаемые слова, ранее входившие в файлы пропускаемых слов, удалены из файлов Поисковый сервер и включены в индексы контента. По умолчанию пользователи могут выполнять запросы со словами, которые ранее считались пропускаемыми. Такие запросы называются запросами пропускаемых слов. Подобные операции поиска можно запретить в веб-части "Основные результаты поиска". Кроме того, если запрос содержит строку в кавычках, в которую входит пропускаемое слово, то в результатах запроса это слово может заменяться любым другим. Например, если запрос содержит строку "configure a server", то в результаты запроса будут включены элементы контента, содержащие строку "configure the server", и элементы со строкой "configure every server".
Примечание: |
---|
Не удаляйте все слова из файла пропускаемых слов. Файл пропускаемых слов должен содержать по крайней мере одну запись, даже если это просто точка (.) |
См. также
Понятия
Управление настройками для улучшения результатов поиска (Search Server 2008)
Настройка достоверных страниц (Search Server 2008)
Добавление ключевых терминов к наиболее подходящим элементам (Search Server 2008)