[アーティクル]
10/31/2012

フルテキストインデックス作成時の言語の選択に関するベストプラクティス

フルテキストインデックスを作成する際には、列レベルの言語をインデックス列に対して指定する必要があります。指定した言語のワードブレーカとステミング機能が、列のフルテキストクエリで使用されます。フルテキストインデックスの作成時に列の言語を選択する際には、注意点が 2 つあります。これらの注意点は、テキストをトークン化する方法と、Full-Text Engine によるインデックス作成の方法にかかわるものです。

注
列レベルの言語をフルテキストインデックス列に対して指定するには、列の指定時に LANGUAGE language_term 句を使用します。詳細については、「CREATE FULLTEXT INDEX (Transact-SQL)」および「ALTER FULLTEXT INDEX (Transact-SQL)」を参照してください。

ワードブレーカ

インデックス作成の対象テキストを単語の境界でトークン化するのは、言語固有のワードブレーカです。したがって、単語を区切る動作は言語によって異なります。1 つの言語 (x) を使用して複数の言語 (x、y、および z) のインデックスを作成した場合、予期しない動作結果が生じることがあります。たとえば、ダッシュ (-) やコンマ (,) などの単語区切り要素は、言語によって無視されたりされなかったりします。また、まれに、ある単語の語幹が言語によって異なる場合に、予期しない語幹検索の動作が生じることがあります。たとえば、英語では通常、単語の境界は空白またはなんらかの句読点になります。ドイツ語などの他の言語では、複数の単語や文字を組み合わせることができます。したがって、列レベルで言語を選択する場合は、その列の行に格納されると予想される言語を選択する必要があります。

西洋言語

西洋言語の場合、列に格納される言語がわからないときや複数の言語が格納されるときは、一般的な回避策として、列に格納される可能性がある言語のうち最も複雑な言語のワードブレーカを使用します。たとえば、1 つの列に、英語、スペイン語、およびドイツ語の内容が格納される予定であるとします。これら 3 つの西洋言語は単語の区切り方がよく似ていますが、ドイツ語の場合が最も複雑です。したがって、この例では、ドイツ語のワードブレーカを使用することをお勧めします。そうすれば、英語とスペイン語のテキストも正しく処理できます。一方、英語のワードブレーカを使用した場合は、複合語を持つドイツ語のテキストを完璧には処理できないことがあります。

言語ファミリ内の最も複雑な言語のワードブレーカを使用しても、ファミリ内のすべての言語で完璧なインデックスを作成できるとは限りません。最も複雑なワードブレーカでも、別言語のテキストを正しく処理できないような場合があります。

西洋以外の言語

西洋以外の言語 (中国語、日本語、ヒンディー語など) では、言語の特性上、上記の回避策が必ずしも機能しません。西洋以外の言語の場合は、次のいずれかの回避策を検討してください。

異なるファミリに属する複数の言語の場合

類似性のない複数の言語 (たとえばスペイン語と日本語) が 1 つの列に格納される可能性がある場合は、格納する列を言語ごとに分けることを検討してください。このようにすると、各列で言語固有のワードブレーカを使用できます。この回避策を選択した場合に、クエリ時にクエリ言語が判明していないときは、両方の列に対してクエリを実行し、適切な行やドキュメントを検索できるようにする必要があります。
バイナリコンテンツ (Microsoft Word 文書など) の場合

インデックス付きコンテンツが binary 型の場合、ワードブレーカへの送信前にテキストコンテンツを処理するフルテキスト検索フィルタによって、バイナリファイル内に存在する特定の言語タグが使用されることがあります。その場合、インデックスの作成時に、ドキュメントまたはドキュメントセクションの正しい LCID がフィルタによって生成されます。次に、その LCID を持つ言語のワードブレーカが Full-Text Engine によって呼び出されます。ただし、複数の言語のコンテンツにインデックスを作成した後は、コンテンツのインデックスが正しく作成されたかどうかを確認することをお勧めします。
プレーンテキストコンテンツの場合

コンテンツがプレーンテキストの場合は、xml データ型に変換して、各ドキュメントまたはドキュメントセクションに対応する言語を示す言語タグを追加できます。ただし、そのためには、フルテキストインデックスの作成前に言語を把握しておく必要があります。

ステミング

列レベルで言語を選択する際には、ステミングについても考慮します。フルテキストクエリでのステミングは、特定の言語の単語に対し、語幹から派生した語形 (変化形) をすべて検索するプロセスです。汎用のワードブレーカで複数の言語を処理する場合、列に対して指定された言語に対してのみステミングプロセスが機能します。列内のその他の言語に対しては、ステミングプロセスが機能しません。たとえば、ドイツ語のステミング機能は、英語やスペイン語などに対して機能しません。このため、クエリ時に選択した言語によっては、再呼び出しに影響する場合があります。

フルテキスト検索に対するデータ格納方法の影響

言語を選択する際のもう 1 つの注意点は、データの表記方法に関連するものです。varbinary(max) 列に格納されていないデータについては、特別なフィルタ処理は実行されません。テキストはそのままの形で単語を分解するコンポーネント (ワードブレーカ) に渡されます。

また、ワードブレーカは主に記述されたテキストを処理することを目的として設計されています。したがって、HTML などのなんらかのマークアップがテキストに含まれている場合には、言語面での精度が高いインデックス作成と検索は期待できません。このような場合には、2 つの選択肢があります。推奨される方法は、テキストデータを varbinary(max) 列に格納し、ドキュメントタイプを明示してフィルタ処理されるようにする方法です。この方法を選択できない場合は、ニュートラルワードブレーカの使用を検討してください。また、可能であれば、ノイズワードの一覧にマークアップデータ (HTML の「br」など) を追加します。

注
ニュートラル言語を指定した場合、言語ベースのステミングは使用できません。

フルテキストクエリにおける既定以外の列レベル言語の指定

SQL Server 2008 の既定のフルテキスト検索では、フルテキスト句内に含まれている各列に対して指定した言語を使用して、クエリ用語が解析されます。この動作をオーバーライドするには、クエリ時に既定以外の言語を指定します。言語がサポートされていて、そのリソースがインストールされていれば、CONTAINS、CONTAINSTABLE、FREETEXT、FREETEXTTABLE クエリの LANGUAGE language_term 句を使用して、クエリ用語の単語区切り、ステミング、類義語辞典、およびストップワードの処理に使用する言語を指定できます。

言語サポート

ここでは、ワードブレーカとステミング機能の概要を示し、列レベルの言語の LCID がフルテキスト検索で使用されるしくみについて説明します。

ワードブレーカとステミング機能の概要

SQL Server 2008 には、以前の SQL Server から大幅に機能が強化された、まったく新しいワードブレーカとステミング機能が用意されています。

注
これらの新しい言語コンポーネントは、Microsoft Natural Language Group (MS NLG) によって実装およびサポートされています。

新しいワードブレーカには次の利点があります。

堅牢性

負荷の高いクエリ環境における新しいワードブレーカの堅牢性が、テストによって明らかにされています。
セキュリティ

言語コンポーネントのセキュリティが向上したため、SQL Server 2008 の新しいワードブレーカは既定で有効になります。SQL Server の全体的なセキュリティと堅牢性を強化するためには、ワードブレーカやフィルタなどの外部コンポーネントに署名することを強くお勧めします。次のようにフルテキストを構成すると、これらのコンポーネントが署名されていることを確認できます。
```
EXEC sp_fulltext_service 'verify_signature';
```
品質

ワードブレーカの設計が変更されました。新しいワードブレーカのセマンティクスの品質が以前よりも向上したことが、テストによって明らかにされています。このため、SQL Server 2008 ユーザーにとって再呼び出しの精度が向上します。
対応言語

多くの言語では、ワードブレーカがすぐ使える状態で SQL Server 2008 に付属しており、既定で有効になります。

ワードブレーカとステミング機能が SQL Server 2008 に付属している言語の一覧については、「sys.fulltext_languages (Transact-SQL)」を参照してください。

サードパーティのワードブレーカ

SQL Server 2008 では、外部のサードパーティのワードブレーカをいくつか使用できます。これらのワードブレーカを手動で登録できます。詳細については、「ライセンスが許可されているサードパーティのワードブレーカーを読み込む方法」を参照してください。

外部 (サードパーティ) のワードブレーカを読み込んだら、次のように sp_fulltext_service システムストアドプロシージャに update_languages オプションを指定して実行し、フルテキストでサポートされる言語の一覧を更新する必要があります。

EXEC sp_fulltext_service 'update_languages';

これにより、新しく読み込まれたワードブレーカの言語が、sys.fulltext_languages カタログビューによって一覧表示されます。

列レベルの言語の名前がフルテキスト検索で使用されるしくみ

フルテキストインデックスの作成時には、有効な言語名を各列に対して指定する必要があります。言語名が有効であっても sys.fulltext_languages (Transact-SQL) カタログビューによって返されない場合、同じ言語ファミリに使用可能な言語名があれば、最も近いものがフルテキスト検索に使用されます。それ以外の場合は、代わりにニュートラルワードブレーカがフルテキスト検索に使用されます。このフォールバック動作は、再呼び出しの精度に影響する可能性があります。したがって、フルテキストインデックスの作成時には、有効かつ使用可能な言語名を各列に対して指定することを強くお勧めします。

注
LCID は、フルテキストインデックス作成で有効なすべてのデータ型 (char 型や nchar 型など) に適用されます。char、varchar、text 型の列の並べ替え順を、LCID で識別された言語とは異なる言語に設定した場合でも、それらの列に対してフルテキストインデックスを作成したりクエリを実行したりするときには LCID が使用されます。

LCID は、フルテキストインデックス作成で有効なすべてのデータ型 (char 型や nchar 型など) に適用されます。char、varchar、text 型の列の並べ替え順を、LCID で識別された言語とは異なる言語に設定した場合でも、それらの列に対してフルテキストインデックスを作成したりクエリを実行したりするときには LCID が使用されます。

次の方法で共有

フルテキストインデックス作成時の言語の選択に関するベストプラクティス

ワードブレーカ

西洋言語

西洋以外の言語

ステミング

フルテキスト検索に対するデータ格納方法の影響

フルテキストクエリにおける既定以外の列レベル言語の指定

言語サポート

ワードブレーカとステミング機能の概要

サードパーティのワードブレーカ

列レベルの言語の名前がフルテキスト検索で使用されるしくみ

関連項目

参照

概念

その他のリソース

次の方法で共有

フルテキスト インデックス作成時の言語の選択に関するベスト プラクティス

ワード ブレーカ

西洋言語

西洋以外の言語

ステミング

フルテキスト検索に対するデータ格納方法の影響

フルテキスト クエリにおける既定以外の列レベル言語の指定

言語サポート

ワード ブレーカとステミング機能の概要

サード パーティのワード ブレーカ

列レベルの言語の名前がフルテキスト検索で使用されるしくみ

関連項目

参照

概念

その他のリソース

フルテキストインデックス作成時の言語の選択に関するベストプラクティス

ワードブレーカ

フルテキストクエリにおける既定以外の列レベル言語の指定

ワードブレーカとステミング機能の概要

サードパーティのワードブレーカ