ワード ブレーカ、ステマ、およびノイズ ワード ファイルが検索結果に及ぼす影響 (Search Server 2008)
適用対象: Microsoft Search Server 2008
トピックの最終更新日: 2015-03-09
注意
別途記載のない限り、この記事の情報は Microsoft Search Server 2008 と Microsoft Search Server 2008 Express の両方に適用されます。
ワード ブレーカ、ステマ、およびノイズ ワード ファイル (ストップ ワード ファイルとも呼ばれる) のコンポーネントは、すべて、インデックス処理およびクエリ処理に含まれるコンポーネントです。
この記事の内容 :
ワード ブレーカ
ステマ
ノイズ ワード ファイル
ワード ブレーカ
ワード ブレーカは、インデックス作成とクエリの処理時にテキストを個々の単語に分割するためのコンポーネントです。インデックス作成時には、コンテンツ項目内のテキストが一連の文字からなる未分割の文字列として抽出されます。ワード ブレーカは、この文字列に含まれる個々の単語が開始および終了する位置の情報を回復します。複合語を分解して、元の複合語全体についても、複合語を構成する単語要素についてもユーザーにクエリ結果を返せるようにします。また、コンテンツ項目に含まれる数値や日付を標準的な形式に変換します。
ワード ブレーカは言語ごとに異なります。どのワード ブレーカを使用するかはインデックス エンジンが決定し、複数の言語が検出された場合は 1 つのドキュメントから抽出したテキストに対して複数のワード ブレーカが使用されることもあります。特定言語向けのワード ブレーカが存在しない場合は、ニュートラル ワード ブレーカが使用されます。
ワード ブレーカは、クエリ エンジンによっても使用されます。ユーザーがクエリを送信すると、複合語や複合語句の分割にワード ブレーカが使用されます。これにより、ユーザーからのクエリをコンテンツ インデックス内の用語と対照させることができます。クエリ中は、ユーザーが Web ブラウザで使用している言語によってワード ブレーカの言語が特定されます。
Search Server 2008 では、次の表に示すワード ブレーカがSearch Server ファーム内の各サーバーに既定でインストールされます。
アラビア語 |
ハンガリー語 |
パンジャーブ語 |
ベンガル語 |
アイスランド語 |
ルーマニア語 |
ブルガリア語 |
インドネシア語 |
ロシア語 |
カタルニア語 |
イタリア語 |
セルビア語 (キリル) |
クロアチア語 |
日本語 |
セルビア語 (ラテン) |
チェコ語 |
カンナダ語 |
スロバキア語 |
デンマーク語 |
韓国語 |
スロベニア語 |
オランダ語 |
ラトビア語 |
スペイン語 |
英語 |
リトアニア語 |
スウェーデン語 |
フィンランド語 |
マレー語 |
タミール語 |
フランス語 |
マラヤーラム語 |
テルグ語 |
ドイツ語 |
マラーティー語 |
タイ語 |
ギリシャ語 |
ノルウェー語 (ブークモール) |
トルコ語 |
グジャラート語 |
ポーランド語 |
ウクライナ語 |
ヘブライ語 |
ポルトガル語 |
ウルドゥ語 |
ヒンディー語 |
ポルトガル語 (ブラジル) |
ベトナム語 |
ステマ
ステマは、単語の基本形を見つけ、さらにその派生形を生成することもできるコンポーネントです。たとえば、英語の「bought」という単語を含んだクエリに対して、ステマは基本形の「buy」を追加することや、「buys」、「buying」など別の形を生成して追加することができます。
ステマの機能は言語固有なので、サポートしている言語によって機能が異なります。一部のステマは語根を検出しますが、新しい形態の語を生成しません。多くの言語では、ステム機能は既定で無効にされています。主要な検索結果 Web パーツで検索クエリを行う場合は、ステム機能を有効にできます。
注意
ワード ブレーカを備え、ステム機能をサポートしている言語では、ステマが備わっています。一部の言語では、ステマはインストールはされますが、有効にはなりません。ステマを有効にするには、レジストリを編集する必要があります。特定の言語においてステマを有効にする方法については、「ワード ブレーカとステマ SharePoint Server 2007 で有効にする方法」(https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x411) を参照してください。
ノイズ ワード ファイル
特定の言語で検索を実行する際に有用でないと考えられる単語があります。たとえば、「the」や「an」のような単語は英語で書かれたほぼすべてのテキストに含まれているため、英語の検索に使用する価値はほとんどありません。検索において価値がほとんどない単語を、ノイズ ワード (またはストップ ワード) と呼びます。インデックスの作成処理では、インデックスのサイズを小さくしてパフォーマンスを向上するためにノイズ ワードが削除されます。ノイズ ワードと見なす単語は、言語別の編集可能なテキスト ファイルに記述されています。ノイズ ワード ファイル内の単語を削除または追加した場合、コンテンツのフル クロールを実行する必要があります。
ノイズ ワード ファイルの内容は、SharePoint 製品の以前のバージョンから大幅に変更されています。従来ノイズ ワード ファイルに含まれていた単語の多くが Search Server のノイズ ワード ファイルからは削除され、コンテンツ インデックスに含められるようになりました。既定では、ユーザーは従来ノイズ ワードとして除外されていた単語をクエリで検索できます。そのようなクエリをノイズ ワード クエリと呼びます。主要な検索結果 Web パーツを使用すると、ノイズ ワード クエリを禁止することもできます。また、クエリ内に引用符で囲んで指定された文字列がノイズ ワードを含む場合は、そのノイズ ワードを何か別の単語に置き換えたクエリ結果が返されることがあります。たとえば、「configure a server」という文字列を含んだクエリに対しては、「configure the server」や「configure every server」などの文字列を含んだコンテンツ項目が返されます。
注意
ノイズ ワード ファイル内には少なくとも 1 つのエントリが必要であり、すべての単語を削除することはできません。内容はピリオド (.) 1 文字のみでもかまいませんが、何らかのエントリを指定してください。
関連項目
概念
検索結果が充実するように設定を管理する (Search Server 2008)
権限のあるページを構成する (Search Server 2008)
おすすめコンテンツと共にキーワードを追加する (Search Server 2008)