トレーニングとモデリングとは

[アーティクル]
09/03/2024

モデルは、特定の言語ペアの翻訳を提供するシステムです。適切なトレーニングの成果がモデルです。モデルをトレーニングするには、互いに重複しない 3 種類のドキュメント (トレーニング、チューニング、テスト) が必要です。ディクショナリドキュメントタイプを提供することもできます。詳しくは、文のアラインに関する記事をご覧ください。

トレーニングをキューに追加するときにトレーニングデータのみ入力した場合、チューニングとテストのデータは、カスタム翻訳ツールによって自動的にアセンブルされます。トレーニングドキュメントから文のランダムなサブセットが使用され、これらの文はトレーニングデータ自体から除外されます。

Custom Translator のトレーニングドキュメントタイプ

トレーニングセットに含まれているドキュメントは、Custom Translator によってモデル構築のベースとして使用されます。トレーニングの実行中、これらのドキュメントに存在する文がアライン (またはペアリング) されます。トレーニングドキュメントのセットは自由に構成することができます。 1 つのモデルには、関連性がほとんどないと考えられるドキュメントを含めることができます。さらに、別のモデルではそれらを除外することによって、BLEU (Bilingual Evaluation Understudy) スコアへの影響を確認します。チューニングセットとテストセットを一定に保つ限り、トレーニングセットの構成は自由に試すことができます。このアプローチは、お客様の翻訳システムの品質を調整する方法として効果的です。

プロジェクト内で複数のトレーニングを実行して、すべてのトレーニングを対象に BLEU スコアを比較することができます。比較のために複数回トレーニングを実行するときは必ず、毎回同じチューニングデータとテストデータを指定してください。また結果は、[Testing](テスト) タブから手動で検証するようにしてください。

Custom Translator のチューニングドキュメントタイプ

このセットに含まれている並列ドキュメントは、最適な結果が得られるよう翻訳システムをチューニングするために Custom Translator によって使用されます。

チューニングデータは、翻訳システムのあらゆるパラメーターと重みを最適な値に調整する目的でトレーニング中に使用されます。チューニングデータは慎重に選んでください。チューニングデータは、将来翻訳しようとするドキュメントの内容を代表するものであることが必要です。チューニングデータは、生成される翻訳の品質に大きく影響します。チューニングを行うことで、お客様がチューニングデータに含めたサンプルに最も近い翻訳が、翻訳システムによって提供されるようになります。チューニングデータに 2,500 を超える文は必要ありません。最適な翻訳品質を確保するために、最も代表的な文を厳選して、チューニングセットを手動で選ぶことをお勧めします。

チューニングセットを作成する際は、意味を成す代表的な長さの文を、将来的に翻訳対象となる文から選んでください。翻訳対象となる語句を、将来的に想定される翻訳に近い分布で含んだ文を選んでください。実際には、文の長さが 7 語から 10 語のときに最適な結果が得られます。こうした文には、語形変化を示すのに十分なコンテキストが含まれており、また句の長さも、意味を備えつつ、複雑になりすぎることがないためです。

チューニングセットに使用すべき文の種類を適切に言い表すと、散文、つまり実際の流暢な文章です。表のセル、詩、箇条書き、句読点のみの文、数字は、文 (通常の言語) としてふさわしくありません。

お客様がチューニングデータを手動で選択する場合は、そこにトレーニングやテストのデータと同じ文が混ざらないようにしてください。チューニングデータは翻訳の品質に大きく影響するため、文は慎重に選ぶようにしてください。

チューニングデータに何を選べばよいかわからない場合は、単にトレーニングデータを選択すれば、カスタム翻訳ツールによって自動的にチューニングデータが選択されます。カスタム翻訳ツールによってチューニングデータが自動的に選択される際には、バイリンガルのトレーニングドキュメントから文のサブセットがランダムに使用され、それらの文がトレーニングマテリアルそのものから除外されます。

Custom Translator のテストデータセット

テストセットに含まれている並列ドキュメントは、BLEU (Bilingual Evaluation Understudy) スコアの計算に使用されます。このスコアは、お客様の翻訳システムの品質を示します。実際、このトレーニングの結果として翻訳システムから得られた翻訳がテストデータセット内の基準文とどの程度一致しているかは、このスコアから判別できます。

BLEU スコアは、自動翻訳と基準翻訳との間の差分を測定した値です。その値の範囲は 0 から 100 です。スコア 0 は、基準文に含まれる語が、1 つも翻訳に出現しないことを示します。スコア 100 は、自動翻訳が基準文と完全に一致すること、つまり同じ語がまったく同じ位置に出現することを示します。お客様が受け取るスコアは、テストデータの文すべての BLEU スコアを平均した値です。

テストデータには、ターゲット言語の文が、ソースとターゲットのペアの対応するソース言語の文に対して最も望ましい翻訳であるような並列ドキュメントを含める必要があります。チューニングデータを構成するために使用したのと同じ基準を使用してかまいません。ただし、テストデータは翻訳システムの品質に影響を与えず、BLEU スコアを生成するためにのみ使用されます。

テストデータに 2,500 を超える文は必要ありません。お客様がシステムにテストセットを自動的に選択させる場合は、バイリンガルのトレーニングドキュメントから文のサブセットがランダムに使用され、それらの文がトレーニングマテリアルそのものから除外されます。

モデル内の [テスト] タブに移動すると、テストセットのカスタム翻訳を表示したり、それらをお客様のテストセット内の翻訳と比較したりすることができます。

次の手順

モデルをテストして評価する

次の方法で共有

トレーニングとモデリングとは

Custom Translator のトレーニングドキュメントタイプ

Custom Translator のチューニングドキュメントタイプ

Custom Translator のテストデータセット

次の手順

フィードバック

その他のリソース

次の方法で共有

トレーニングとモデリングとは

Custom Translator のトレーニング ドキュメント タイプ

Custom Translator のチューニング ドキュメント タイプ

Custom Translator のテスト データセット

次の手順

フィードバック

その他のリソース

Custom Translator のトレーニングドキュメントタイプ

Custom Translator のチューニングドキュメントタイプ

Custom Translator のテストデータセット