当前位置:首页 > 报告详情

前沿趋势论坛-机器翻译视角下的多语言大模型-南京大学.pdf

上传人: 山海 编号:627082 2025-04-21 46页 5.89MB

1、机器翻译视角下的多语言大模型黄书剑南京大学计算机学院0机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识(包含翻译知识)语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型1机器翻译的研究范式正在转变神经机器翻译:主要从平行数据中学习翻译知识大语言模型:主要从单语数据中学习通用知识(包含翻译知识)语言模型单语数据预训练指令微调In-context Learning平行数据训练平行数据翻译模型2提升LLM:语言转换语言对齐提升MT:翻译知识LLM向MT传递翻译知识3研究动机(不同范式之间的比较)

2、大语言模型中包含大量的长尾知识这些知识可能很难包含在相对有限的平行数据中如果能利用这些知识,可能可以更好提升翻译能力大语言模型参数规模巨大,解码开销高650M3.3B v.s.7B130B4语言模型单语数据预训练指令微调In-context Learning平行数据原文:司美格鲁肽是一种用于体重管理的药物。百度翻译:Smegglutide is a medication used for weight management.ChatGPT:Semaglutide is a medication used for weight management.ParroT-7B:Simeprevir is

3、 a medication used for managing weight.传统知识迁移方法数据增强/知识蒸馏(SeqKD)教师模型(Teacher)翻译源端单语数据,生成伪平行数据学生模型(Student)在生成的伪数据上学习5司美格鲁肽是一种用于体重管理的药物。天空很蓝大型语言模型能力很强Semaglutide is a medication The sky is blueLLMs have great abilities.教师模型学生模型传统方案的问题:无选择性简单的在所有数据上微调翻译模型,会导致训练开销太高易产生对原有知识的灾难性遗忘-蒸馏过程应该有选择性,仅迁移翻译模型未知的知识

4、仅学习翻译模型犯错的句子仅学习翻译模型犯错的词6司美格鲁肽是一种用于体重管理的药物。天空很蓝。大型语言模型能力很强。Semaglutide is a medication for The sky is blue.LLMs have great abilities.教师模型学生模型传统方案的问题:无外推能力完全依赖语言现象在单语数据中的显式出现无法外推到新的上下文无法外推到其他的词-蒸馏过程应该具备外推能力(举一反三)在不同的上下文下学习同一个翻译知识从当前翻译知识扩展到相关的新翻译知识7司美格鲁肽是一种用于体重管理的药物。请问各位知道哪里可以买到司美格鲁肽的口服药吗!外推到新的上下文司美格鲁肽

5、二甲双胍、奥利司他外推到新的词MT-Patcher:基于LLM的高效知识迁移框架识别小模型中的翻译错误,并进行修正(Feedback/Post Editing)可以针对性地选择错误的知识根据现有错误词对进行联想(Word Analogy)可以外推到更多相关的知识生成包含目标词对的平行数据(Parallel Data Synthesis)可以外推到更多上下文充分发挥大语言模型的能力,充分利用原有模型的现有能力!8Li et al.,MT-PATCHER:Selective and Extendable Knowledge Distillation from Large Language Mode

6、ls for Machine Translation.NAACL 2024.9反馈 类比 合成部分结果:化学物质翻译MT-Patcher 显著提升了对于新的上下文/词的翻译准确率反馈和错误修正 提升模型学习效果平行语料合成模型 提升已见过词+新上下文性能错误联想模型 提升未见过词性能23.124.459.641.160.842.682.343.484.263.21001000255075100125已见过物质名+新上下文新物质名StudentMT-Patcher(+PE)MT-Patcher(+PE+PDS)MT-Patcher(+PE+PDS+WA)SeqKDStudentMT-Patche

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了机器翻译的研究范式正在从传统的神经机器翻译向基于大语言模型的方法转变。作者指出,大语言模型可以从单语数据中学习通用知识,包括翻译知识,而神经机器翻译主要从平行数据中学习翻译知识。文章还讨论了如何利用大语言模型提升低资源语言的能力,以及如何通过跨语言对齐来增强模型的多语言能力。作者提出了一种跨语言能力迁移框架,通过翻译思维链和利用英语能力协助目标语言进行指令完成,来提升模型完成复杂任务的能力。此外,文章还探讨了如何评估模型的跨语言迁移能力,包括通用语言能力、任务完成能力和知识迁移能力。最后,作者指出,从机器翻译到多语言大模型,我们仍然关注多语言学习的原理和方法,以及如何提升语言使用的公平性和促进不同语言文化的沟通交流。
如何利用大语言模型提升低资源语言能力? 如何在大模型中建立有效的多语言对齐? 如何实现从机器翻译到多语言大模型的转变?
客服
商务合作
小程序
服务号
折叠