前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf-三个皮匠报告

1、机器翻译视角下的多语言大模型黄书剑南京大学计算机学院0机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识（包含翻译知识）语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型1机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识（包含翻译知识）语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型2提升LLM：语言转换语言对齐提升MT：翻译知识LLM向MT传递翻译知识3研究动机（不同范式之间的比较）

2、大语言模型中包含大量的长尾知识这些知识可能很难包含在相对有限的平行数据中如果能利用这些知识，可能可以更好提升翻译能力大语言模型参数规模巨大，解码开销高650M3.3B v.s.7B130B4语言模型单语数据预训练指令微调In-context Learning平行数据原文：司美格鲁肽是一种用于体重管理的药物。百度翻译:Smegglutide is a medication used for weight management.ChatGPT:Semaglutide is a medication used for weight management.ParroT-7B:Simeprevir is

3、 a medication used for managing weight.传统知识迁移方法数据增强/知识蒸馏（SeqKD)教师模型(Teacher)翻译源端单语数据，生成伪平行数据学生模型(Student)在生成的伪数据上学习5司美格鲁肽是一种用于体重管理的药物。天空很蓝大型语言模型能力很强Semaglutide is a medication The sky is blueLLMs have great abilities.教师模型学生模型传统方案的问题：无选择性简单的在所有数据上微调翻译模型，会导致训练开销太高易产生对原有知识的灾难性遗忘-蒸馏过程应该有选择性，仅迁移翻译模型未知的知识

4、仅学习翻译模型犯错的句子仅学习翻译模型犯错的词6司美格鲁肽是一种用于体重管理的药物。天空很蓝。大型语言模型能力很强。Semaglutide is a medication for The sky is blue.LLMs have great abilities.教师模型学生模型传统方案的问题：无外推能力完全依赖语言现象在单语数据中的显式出现无法外推到新的上下文无法外推到其他的词-蒸馏过程应该具备外推能力（举一反三）在不同的上下文下学习同一个翻译知识从当前翻译知识扩展到相关的新翻译知识7司美格鲁肽是一种用于体重管理的药物。请问各位知道哪里可以买到司美格鲁肽的口服药吗！外推到新的上下文司美格鲁肽

5、二甲双胍、奥利司他外推到新的词MT-Patcher：基于LLM的高效知识迁移框架识别小模型中的翻译错误，并进行修正（Feedback/Post Editing）可以针对性地选择错误的知识根据现有错误词对进行联想（Word Analogy）可以外推到更多相关的知识生成包含目标词对的平行数据（Parallel Data Synthesis）可以外推到更多上下文充分发挥大语言模型的能力，充分利用原有模型的现有能力！8Li et al.,MT-PATCHER:Selective and Extendable Knowledge Distillation from Large Language Mode

6、ls for Machine Translation.NAACL 2024.9反馈类比合成部分结果：化学物质翻译MT-Patcher 显著提升了对于新的上下文/词的翻译准确率反馈和错误修正提升模型学习效果平行语料合成模型提升已见过词+新上下文性能错误联想模型提升未见过词性能23.124.459.641.160.842.682.343.484.263.21001000255075100125已见过物质名+新上下文新物质名StudentMT-Patcher(+PE)MT-Patcher(+PE+PDS)MT-Patcher(+PE+PDS+WA)SeqKDStudentMT-Patche

前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf

相关报告