用語参照変換
用語参照変換は、変換入力列内のテキストから抽出された用語を、参照テーブルの用語と照合します。次に、入力データセットで参照テーブル内の用語が検出された回数をカウントし、その数を参照テーブルの用語と共に変換出力の列に書き込みます。この変換は、単語の使用頻度を示す統計付きのユーザー定義の単語一覧を、入力テキストから作成する場合に便利です。
用語参照変換は、用語抽出変換と同じ次の方法を使用して、参照を実行する前に入力列のテキストから単語を抽出します。
テキストは文に分けられます。
文は単語に分けられます。
単語は正規化されます。
用語の照合方法を詳細にカスタマイズするには、大文字と小文字を区別して照合するように用語参照変換を構成できます。
用語参照変換は参照を実行し、次の規則を使用して値を返します。
大文字と小文字を区別して照合するように変換が構成されている場合、大文字と小文字を比較して一致しない場合は破棄されます。たとえば、student と STUDENT は別の単語として扱われます。
注意 文の先頭で 1 文字目が大文字になっている単語は小文字の単語と見なされます。たとえば、Student が文の最初の単語である場合、student と Student の照合は成功します。
名詞または名詞句の複数形が参照テーブルに存在する場合、参照により一致するのは、名詞または名詞句の複数形のみです。たとえば、students のすべてのインスタンスは、student のインスタンスとは別にカウントされます。
単語の単数形のみが参照テーブルにある場合、単語または語句の単数形および複数形の両方が単数形と一致します。たとえば、参照テーブルに student が含まれ、変換が student と students を検出した場合、両方の単語が、参照用語の student に一致するものとしてカウントされます。
入力列のテキストが、見出し語付きの名詞句の場合、名詞句の最後の単語のみが正規化されます。たとえば、doctors appointments の見出し語付き名詞句は、doctors appointment になります。
参照セット内で重複している用語が参照項目に含まれる場合、つまりサブ用語が複数の参照レコード内に存在する場合、用語参照変換は参照結果を 1 つだけ返します。次の例は、重複するサブ用語が参照項目に含まれる場合の結果を示しています。この場合、重複するサブ用語は Windows で、2 つの参照用語内に存在します。ただし、変換は結果を 2 つ返さず、参照用語の 1 つ Microsoft Windows のみを返します。2 番目の参照用語である Windows XP Home Edition SP1 は返されません。
項目 |
値 |
---|---|
入力用語 |
Microsoft Windows XP Home Edition SP |
参照用語 |
Microsoft Windows、Windows XP Home Edition SP1 |
出力 |
Microsoft Windows |
用語参照変換は、特殊文字が含まれる名詞および名詞句を照合でき、参照テーブルのデータにもこれらの文字を含めることができます。特殊文字とは、% @ & $ # * : ; . , ! ? < > + = ^ ~ | \ / ( ) [ ] { } " および ' の文字のことです。
用語参照変換で使用できる列は、DT_WSTR または DT_NTEXT データ型のどちらかの列のみです。列にテキストが含まれていても、これらのデータ型ではない場合、データ変換の変換では、DT_WSTR または DT_NTEXT データ型の列をデータ フローに追加し、列の値を新しい列にコピーできます。その後、データ変換の変換からの出力を、用語参照変換への入力として使用できます。詳細については、「データ変換の変換」を参照してください。
用語参照変換の入力列には、InputColumnType プロパティが含まれ、このプロパティにより、列の使用方法を指定します。InputColumnType には、次の値を指定できます。
値 0 は、列が出力のみに渡され、参照で使用されないことを示します。
値 1 は、列が参照のみで使用されることを示します。
値 2 は、列が出力に渡され、参照内でも使用されることを示します。
変換出力列の InputColumnType プロパティが 0 または 2 に設定されている場合、1 つの列に CustomLineageID プロパティが含まれます。このプロパティには、上流のデータ フロー コンポーネントによって列に割り当てられた、系列 ID が含まれます。
用語参照変換は、Term と Frequency という既定の名前の付いた 2 つの列を変換出力に追加します。Term 列には参照テーブルからの用語が含まれ、Frequency 列には、入力データセットで参照テーブル内の用語が検出された回数が含まれます。これらの列には、CustomLineageID プロパティは含まれません。
参照テーブルは、SQL Server 2000、SQL Server、または Access データベースのテーブルである必要があります。用語抽出変換の出力がテーブルに保存されている場合、このテーブルを参照テーブルとして使用できます。ただし、他のテーブルを使用することもできます。フラット ファイルのテキスト、Excel ブック、または他の変換元を用語参照変換で使用するには、これらを、SQL Server データベースまたは Access データベースにインポートする必要があります。
用語参照変換は、個別の OLE DB 接続を使用して、参照テーブルに接続します。詳細については、「OLE DB 接続マネージャ」を参照してください。
用語参照変換は、完全な事前キャッシュ モードで動作します。用語参照変換は、実行時に参照テーブルの用語を読み取って独自のメモリに格納してから、変換入力行を処理します。
入力列の行の用語は繰り返して使用する場合があるため、用語参照変換の出力には、通常、変換入力よりも多くの行があります。
この変換は、1 つの入力と 1 つの出力をとります。エラー出力はサポートされていません。
用語参照変換の構成
プロパティを設定するには SSIS デザイナから行うか、またはプログラムによって設定します。
[用語参照変換エディタ] ダイアログ ボックスで設定できるプロパティの詳細については、次のトピックのいずれかを参照してください。
[詳細エディタ] ダイアログ ボックスまたはプログラムを使用して設定できるプロパティの詳細については、次のトピックのいずれかを参照してください。
プロパティの設定方法の詳細については、「データ フロー コンポーネントのプロパティを設定する方法」を参照してください。
|