你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

训练自定义模型

模型提供特定语言对的翻译。 成功培训的结果即为一种模型。 若要训练自定义模型,需要三种互斥的文档类型:训练、优化和测试。 如果在对训练进行排队时仅提供训练数据,则自定义翻译器会自动收集优化和测试数据。 它使用训练文档中的随机句子子集,并从训练数据本身中排除这些句子。 训练完整模型至少需要 10,000 个并行训练句子。

创建模型

  1. 选择“训练模型”边栏选项卡。

  2. 键入模型名称。

  3. 保持选中默认的“完整训练”,或选择“仅字典训练”。

    备注

    完整训练显示所有上传的文档类型。 仅字典只显示字典文档。

  4. 在“选择文档”下,选择要用于训练模型的文档(例如 sample-English-German),并查看与所选句子数关联的训练成本。

  5. 选择“立即训练”。

  6. 选择“训练”以确认。

    注意

    “通知”显示正在进行的模型训练,例如“提交数据”状态。 训练模型将花费几个小时,具体取决于选定的句子数。

    显示“训练模型”边栏选项卡的屏幕截图。

什么情况下选择仅字典训练

我们建议让系统从训练数据中学习,以获得最佳结果。 但是,如果没有足够的并行句子来满足 10,000 的最低要求,或者句子和复合名词必须按原样呈现,请使用仅字典训练。 模型完成该训练的速度通常比完整训练更快。 生成的模型使用用于翻译的基准模型以及你添加的字典。 你没有看到 BLEU 分数,也没有获得测试报告。

注意

自定义翻译器不会在字典文件中进行句子对齐。 因此,必须确保字典文档中的源和目标短语/句子数相同,并且它们已准确对齐。 如果没有,则文档上传将失败。

模型详细信息

  1. 成功进行模型训练后,选择“模型详细信息”边栏选项卡。

  2. 选择“模型名称”,查看训练日期/时间、总训练时间、用于训练、优化、测试、字典的句子数,以及系统是否生成测试和优化集。 你使用 Category ID 发出翻译请求。

  3. 评估模型 BLEU 分数。 查看测试集:“BLEU 分数”是自定义模型分数,而“基线 BLEU”是用于自定义的预先训练的基线模型。 较高的 BLEU 分数意味着使用自定义模型的翻译质量较高。

    显示模型详细信息字段的屏幕截图。

复制模型

  1. 选择“模型详细信息”边栏选项卡。

  2. 将鼠标悬停在模型名称上,并勾选选择按钮。

  3. 选择“复制”。

  4. 填写新模型名称。

  5. 如果不选择或上传更多数据,则保持“立即训练”处于选中状态,否则,选中“另存为草稿”

  6. 选择保存

    备注

    如果将模型另存为 Draft,“模型详细信息”中的模型名称会更新为 Draft 状态。

    若要添加更多文档,请选择模型名称,然后按照“创建模型”部分中的步骤操作。

    显示“复制模型”边栏选项卡的屏幕截图。

后续步骤