ワード ブレーカ、ステマ、およびノイズ ワード ファイルが及ぼす影響 (Office SharePoint Server 2007)

ワード ブレーカ、ステマ、およびノイズ ワード ファイル (ストップ ワード ファイルとも呼ばれる) のコンポーネントは、すべて、インデックス処理およびクエリ処理に含まれるコンポーネントです。

この記事の内容 :

  • ワード ブレーカ

  • ステマ

  • ノイズ ワード ファイル

ワード ブレーカ

ワード ブレーカは、インデックス作成とクエリの処理時にテキストを個々の単語に分割するためのコンポーネントです。インデックス作成時には、コンテンツ項目内のテキストが一連の文字からなる未分割の文字列として抽出されます。ワード ブレーカは、この文字列に含まれる個々の単語が開始および終了する位置の情報を回復します。複合語については分解して、元の複合語全体についても、複合語を構成する単語要素についてもユーザーにクエリ結果を返せるようにします。また、コンテンツ項目に含まれる数値や日付を標準的な形式に変換します。

ワード ブレーカは言語ごとに異なります。どのワード ブレーカを使用するかはインデックス エンジンが判断し、複数の言語が検出された場合は 1 つのドキュメントから抽出したテキストに対して複数のワード ブレーカを使用することもあります。特定言語向けのワード ブレーカが存在しない場合は、ニュートラル ワード ブレーカが使用されます。

ワード ブレーカは、クエリ エンジンによっても使用されます。ユーザーがクエリを送信すると、複合語や複合語句の分割にワード ブレーカが使用されます。これにより、ユーザーからのクエリをコンテンツ インデックス内の用語と対照させることができます。クエリ中は、ユーザーが Web ブラウザで使用している言語によってワード ブレーカの言語が特定されます。

Microsoft Office SharePoint Server 2007 では、次の表に示すワード ブレーカが SharePoint ファーム内の各サーバーに既定でインストールされます。

アラビア語

ハンガリー語

パンジャーブ語

ベンガル語

アイスランド語

ルーマニア語

ブルガリア語

インドネシア語

ロシア語

カタルニア語

イタリア語

セルビア語 (キリル)

クロアチア語

日本語

セルビア語 (ラテン)

チェコ語

カンナダ語

スロバキア語

デンマーク語

韓国語

スロベニア語

オランダ語

ラトビア語

スペイン語

英語

リトアニア語

スウェーデン語

フィンランド語

マレー語

タミール語

フランス語

マラヤーラム語

テルグ語

ドイツ語

マラーティー語

タイ語

ギリシャ語

ノルウェー語 (ボークモール)

トルコ語

グジャラート語

ポーランド語

ウクライナ語

ヘブライ語

ポルトガル語

ウルドゥ語

ヒンディー語

ポルトガル語 (ブラジル)

ベトナム語

ステマ

ステマは、単語の基本形を見付け、さらにその派生形を生成することもできるコンポーネントです。たとえば、英語の「bought」という単語を含んだクエリに対して、ステマは基本形の「buy」を追加することや、「buys」、「buying」など別の形を生成して追加することができます。

ステマの機能は言語固有なので、サポートしている言語によって機能が異なります。一部のステマは語根を検出しますが、新しい形態の語を生成しません。多くの言語では、ステム機能は既定で無効にされています。主要な検索結果 Web パーツで検索クエリを行う場合は、ステム機能を有効にできます。

注意

ワード ブレーカを備え、ステム機能をサポートしている言語では、ステマが備わっています。一部の言語では、ステマはインストールはされますが、有効にはなりません。ステマを有効にするには、レジストリを編集する必要があります。特定の言語においてステマを有効にする方法については、「ワード ブレーカとステマ SharePoint Server 2007 で有効にする方法」(https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x411) を参照してください。

ノイズ ワード ファイル

特定の言語で検索を実行する際に有用でないと考えられる単語があります。たとえば、「the」や「an」のような単語は英語で書かれたほぼすべてのテキストに含まれているため、英語の検索に使用する価値はほとんどありません。検索において価値がほとんどない単語を、ノイズ ワード (またはストップ ワード) と呼びます。インデックスの作成処理では、インデックスのサイズを小さくしてパフォーマンスを向上するためにノイズ ワードが削除されます。ノイズ ワードと見なされる単語は、言語別の編集可能なテキスト ファイルに記述されています。ノイズ ワード ファイル内の単語を削除または追加した場合、コンテンツのフル クロールを実行する必要があります。詳細については、「ノイズ ワード ファイルの編集 (Office SharePoint Server)」を参照してください。

ノイズ ワード ファイルの内容は、SharePoint 製品の以前のバージョンから大幅に変更されています。従来ノイズ ワード ファイルに含まれていた単語の多くが Office SharePoint Server 2007 のノイズ ワード ファイルからは削除され、コンテンツ インデックスに含められるようになりました。既定では、ユーザーは従来ノイズ ワードとして除外されていた単語をクエリで検索できます。そのようなクエリをノイズ ワード クエリと呼びます。ノイズ ワード クエリは、主要な検索結果 Web パーツを使用して禁止できます。また、クエリ内に引用符で囲んで指定された文字列がノイズ ワードを含む場合は、そのノイズ ワードを何か別の単語に置き換えたクエリ結果が返されることがあります。たとえば、「configure a server」という文字列を含んだクエリに対しては、「configure the server」や「configure every server」などの文字列を含んだコンテンツ項目が返されます。

重要

ノイズ ワード ファイル内には少なくとも 1 つのエントリが必要であり、すべての単語を削除することはできません。内容はピリオド (.) 1 文字のみでもかまいませんが、何らかのエントリを指定してください。

関連項目

概念

検索結果が充実するように設定を管理する (Office SharePoint Server)
権限のあるページを構成する (Office SharePoint Server)
おすすめコンテンツと共にキーワードを追加する (Office SharePoint Server)
ノイズ ワード ファイルの編集 (Office SharePoint Server)
シソーラス ファイルを編集する (Office SharePoint Server)
ユーザー辞書を作成する (Office SharePoint Server 2007)