辞書とは
辞書とは、一連の句または文、そしてそれに対応する翻訳を指定する、アラインされたドキュメントのペアです。 特定の句または文がソースに出現したときに、辞書に指定した翻訳が翻訳ツールで使用されるようにするには、トレーニングに辞書を使用します。 辞書は、用語集や用語ベースと呼ばれることもあります。 指定したすべての用語を強制的に "置換" する手段が辞書であると考えられます。 さらに、Microsoft カスタム翻訳ツールのサービスは、独自に構築した汎用辞書により高品質の翻訳を実現しています。 ただし、単語や文を検索する際は、ご提供いただいた辞書が優先され、最初に検索されます。
辞書が正しく機能するのは、Microsoft の一般ニューラル ネットワークモデルが完全にサポートされる言語ペアのプロジェクトのみです。 言語の完全な一覧を確認してください。
句辞書
句辞書では大文字と小文字が区別されます。 これは完全一致での検索と置換の操作です。 お客様のモデルのトレーニングに句辞書を含めた場合、そこに記載されている語句は、指定されたとおりに翻訳されます。 文の残りの部分は、普通に翻訳されます。 翻訳すべきでない句は、句辞書を使用して指定できます。その場合は、ソース ファイルとターゲット ファイルに同じ未翻訳の句を指定します。
動的辞書
動的辞書機能を使うと、特定の用語や語句の翻訳をカスタマイズできます。 独自のコンテキスト、言語、または特定のニーズに合わせてカスタム翻訳を定義します。
ニューラル句辞書
ニューラル句辞書は、動的辞書と標準句辞書の機能の拡張です。 動的辞書と句辞書を使用すると、特定の用語または語句に対して独自の翻訳を提供することで、翻訳出力をカスタマイズできます。 動的辞書機能は Translator API で使用され、ニューラル句辞書はカスタム翻訳ツールを使用して有効化されます。 ニューラル句辞書は、機械翻訳モデルで用語とコンテキストの両方を調整できるようにすることで、1 つ以上の用語翻訳を含む文の翻訳品質を向上させます。 この調整により、より流暢な翻訳が生成されます。 同時に、高度な翻訳精度が維持されます。
文辞書
文辞書では大文字と小文字が区別されません。 文辞書を使用すると、ソース文に対して正確なターゲット翻訳を指定できます。 文辞書との一致が成立するには、送信された文全体がソース辞書の項目と一致する必要があります。 句読点で終わるソース辞書のエントリは、照合時には無視されます。 文の一部が一致するだけでは、項目が一致したことにはなりません。 一致が検出されると、文辞書のターゲット項目が返されます。
辞書のみのトレーニング
モデルは、辞書データのみを使用してトレーニングすることができます。 そのためには、含めたい辞書ドキュメント (複数可) のみを選択して、[モデルの作成] を選択します。 このトレーニングは辞書のみであるため、トレーニング文の数に関して、満たすべき最低限の要件はありません。 通常、お客様のモデルのトレーニングは、標準的なトレーニングよりも早く完了します。 結果として得られるモデルには、お客様が追加した辞書に加えて、Microsoft の翻訳用ベースライン モデルが使用されます。 テスト レポートは得られません。
Note
カスタム翻訳ツールには辞書ファイルを文単位でアラインする機能がありません。そのため、辞書ドキュメントでソースとターゲットに同数の句および文が存在していること、また正確にアラインされていることが重要です。
推奨事項
辞書は、トレーニング データを使用するトレーニング済みモデルに代わるものではありません。 より良い結果を得るために、トレーニング データを使用してシステムに学習させることをお勧めします。 ただし、文や複合名詞を一字一句訳す必要がある場合は、句辞書を使用します。
句辞書は控えめに使用してください。 文中の句が置換されると、その文の残りの部分を翻訳するためのコンテキストが文から失われるか制限されます。 その結果、文中の語句は提供される辞書に従って翻訳されるものの、多くの場合、文全体の翻訳の品質は低下します。
句辞書は、製品名 ("Microsoft SQL Server")、固有名詞 ("City of Hamburg")、製品の特徴 ("pivot table") などの複合名詞に適しています。 動詞や形容詞については同じレベルでは機能しません。一般に、それらの語はソース言語またはターゲット言語で非常に文脈的であるためです。 複合名詞以外を句辞書に登録することを避けるのがベスト プラクティスです。
句辞書を使用する場合は、大文字と句読点が重要です。 辞書エントリでは、大文字と小文字が区別され、句読点が区別されます。 カスタム翻訳ツールは、入力文内の単語と語句のうち、ソースとなる辞書ファイルで指定されているのと同じ大文字と句読点を使用しているもののみと一致します。 また、翻訳にはターゲットの辞書ファイルで指定されている大文字や句読点が反映されます。
例
- 句辞書を使用する英語からスペイン語へのシステムをトレーニングしていて、ソース ファイルに "SQL server" を指定し、ターゲット ファイルに "Microsoft SQL Server" を指定する場合。 "SQL server" という語句を含む文の翻訳を要求すると、カスタム翻訳ツールは、辞書エントリと "Microsoft SQL Server" を含む翻訳を照合します。
- 同じ語句を含むが、ソース ファイル内の内容と一致しない文 ("sql server"、"sql Server"、"SQL Server" など) の翻訳を要求した場合、辞書から一致するものは返されません。
- 翻訳は、フレーズ 辞書で指定されているターゲット言語の規則に従います。
ニューラル句辞書の詳細については、ニューラル辞書のガイダンスと推奨事項を "参照してください"。
文辞書を使用している場合は、文末の句読点は無視されます。
例
- ソース辞書に "this sentence ends with punctuation!" が含まれる場合、"this sentence ends with punctuation" を含むすべての翻訳要求が一致します。
辞書には、一意のソース行が含まれている必要があります。 辞書ファイルにソース行 (単語、語句、または文) が複数回出現する場合、システムは常に、指定された最後のエントリを使用し、一致が見つかったときにターゲットを返します。
ソース 辞書 ファイルに、数字のみで構成される語句、または頭字語などの 2 文字または 3 文字の単語である語句を追加しないでください。