Неучитываемые слова

Чтобы предотвратить чрезмерное увеличение полнотекстового индекса, в Microsoft SQL Server реализован механизм, отбрасывающий часто встречающиеся слова, которые не повышают эффективность поиска. Такие слова называются неучитываемыми словами или стоп-словами. Неучитываемые слова хранятся в отдельных файлах для каждого языка. Например, файл неучитываемых слов, соответствующий английскому языку, содержит такие слова, как «a», «and», «is» и «the». Они не включаются в полнотекстовый индекс, потому что эмпирически установлено, что при поиске они бесполезны. Тем не менее при составлении полнотекстового индекса учитываются позиции неучитываемых слов. Рассмотрим для примера фразу «Instructions are applicable to these Adventure Works Cycles models». Позиции слов в этой фразе приведены в следующей таблице.

Слово или лексема Позиция

Instructions

1

are

2

applicable

3

to

4

these

5

Adventure

6

Works

7

Cycles

8

models

9

Неучитываемые слова «are», «to» и «these», занимающие позиции 2, 4 и 5, в полнотекстовый индекс не включаются. Однако данные об их позициях сохраняются, благодаря чему позиции других слов в фразе остаются неизменными.

Файлы неучитываемых слов хранятся в каталоге путь_установки_SQL_Server\Microsoft SQL Server\MSSQL.1\MSSQL\FTDATA\. Этот каталог и файлы неучитываемых слов создаются при установке SQL Server с поддержкой полнотекстового поиска. Файлы неучитываемых слов можно редактировать; например, системные администраторы, работающие в IT-компаниях, могут в список неучитываемых слов добавить слово «компьютер».

ms142551.note(ru-ru,SQL.90).gifВажно!
Чтобы изменения в файле неучитываемых слов вступили в силу, полнотекстовые каталоги нужно заполнить заново.

Файлы неучитываемых слов и соответствующие им языки указаны в следующей таблице.

Файл неучитываемых слов Язык

Noisechs

Китайский (упрощенный)

Noisecht

Китайский (традиционный)

Noisedan

Датский

Noisedeu

Немецкий

Noiseeng

Английский (Великобритания)

Noiseenu

Английский (США)

Noiseesn

Испанский

Noisefra

Французский

Noiseita

Итальянский

Noisejpn

Японский

Noisekor

Корейский

Noiseneu

Нейтральный язык

Noisenld

Нидерландский

Noiseplk

Польский

Noiseptb

Бразильский вариант португальского языка

Noisepts

Иберийский вариант португальского языка

Noiserus

Русский

Noisesve

Шведский

Noisetha

Тайский

Noisetrk

Турецкий

См. также

Основные понятия

Основы полнотекстового поиска

Справка и поддержка

Получение помощи по SQL Server 2005