《郑茂-混元翻译模型技术分享_终版- final.pdf》由会员分享,可在线阅读,更多相关《郑茂-混元翻译模型技术分享_终版- final.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、Hunyuan-MT:腾讯混元轻量级大模型的翻译训练与优化实践郑茂自我介绍郑茂,现任腾讯混元技术专家,混元应用算法负责人。负责混元大模型在腾讯的应用落地,包括广告、社交、娱乐、教育、客服等业务的大模型应用层效果优化。技术研究方向包括大模型复杂推理、多轮对话、翻译、RAG、AGENT 等。在ACL、AAAI、EMNLP、COLING、CVPR 等会议上发表数十篇论文。带领团队获得WMT2025 翻译比赛诸多赛道第一名。目录010203040605Hunyuan-MT 近期进展06Hunyuan-MT 模型训练方案详解Hunyuan-MT 应用场景能力建设方案经验总结未来展望Hunyuan-MTC
2、ASE 分享01Hunyuan-MT 近期进展关键进展夺冠-通用翻译赛道上,31个语种中30个语种第一(超过Gemini-2.5-pro、CLAUDE4、deepseek v3、qwen3 235b等模型)。-31个语种除了中文、英语、德语、日语等常见语种,也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种WMT2025开源-开源Hunyuan-MT-7b翻译模型和Hunyuan-MT-Chimera翻译集成模型。-重点支持33个语种互译。特色能力包括5种民汉语言/方言互译、俚语翻译等-Huggingface首页趋势榜排名第一,开源一周模型下载量破万,开源一周Github Star数量超500
3、Hunyuan-MT开源应用多场景应用落地-接入腾讯会议(实时翻译、会后翻译),腾讯游戏出海翻译、企业微信(聊天记录翻译、邮件翻译),微信读书(划词翻译、书籍翻译)、QQ浏览器(文件翻译、划词翻译),腾讯海外客服、腾讯云翻译等。Github:https:/ 分享Hunyuan-MT-7BHunyuan-MT-7B长难句原文(摘自路透社):Trumps Republican allies and members of the administration,including Vice President JD Vance,took to social media to criticize law
4、makers who had grilled the health secretary.Youre full of shit and everyone knows it,Vance said on X.页面翻译:特朗普的共和党盟友和政府成员,包括副总统 JD Vance,在社交媒体上批评了抨击这位卫生部长的立法者。“你满身都是狗屎,每个人都知道,”万斯在 X 上说。混元Hunyuan-MT-7B翻译:特朗普的共和党盟友及政府官员(包括副总统JD万斯)纷纷在社交媒体上批评那些严厉质问卫生部长的议员。万斯在X平台上表示:“你们满口胡言,大家都清楚这一点。”俚语原文(摘自商业内幕):No matte
5、r how you slice it,the August jobs report showed a weakening labor market.页面翻译:不管你怎么切片,8 月份的就业报告都显示劳动力市场疲软。混元Hunyuan-MT-7B翻译:无论从哪个角度来看,8月份的就业报告都显示劳动力市场正在疲软。Hunyuan-MT-7BHunyuan-MT-Chimera-7B03Hunyuan-MT模型训练方案详解Shy训练框架概览(WMT方案)涵盖33种语言和民族语言采集/合成大量多语种数据通过在小模型上进行实验,确定训练数据中最优语种配比训练数据语种配比训练学习率从较小学习率warmup
6、到pretrain的起始学习率,再进行cosine decay,平衡旧知识的遗忘和新知识的适应训练学习率调整防止多语言增训影响中英能力对中英数据进行replayP多语言增训CDA如何进行多语言增训(CPT)如何获取高质量平行语料(SFT)高资源语种先采用少量网络收集和内部人工标注的高质量数据训练一个融合模型,然后使用该融合模型,将多个效果领先的大模型翻译结果进行融合,最终得到质量更高的翻译结果对于低资源语种,采用高资源语种(如英语)进行桥接得到低资源语种之间的平行语料,再通过多维度质量打分进行筛选低资源语种如何设计多语言RM(RL)多语言多语言RMRM