《A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf》由会员分享,可在线阅读,更多相关《A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、用于隐式模型融合的加权奖励偏好优化WRPO梁国晟 中山大学语言智能技术实验室梁国晟中山大学语言智能技术实验室 研究生梁国晟,中山大学计算机学院在读研究生,导师为权小军教授。本人主要研究方向为自然语言处理,专注于大语言模型、推理模型及模型融合等相关技术。科研方面,本人致力于自然语言处理前沿技术的探索与实践,已公开发表学术论文3篇,并申请发明专利1项。0102030405引言和动机背景知识铺垫WRPO 方法详解实验与结果结论与展望引言和动机大型语言模型(LLM)概览是什么?经过海量文本数据训练的超大规模人工智能模型,擅长理解和生成类似人类的语言。如何工作?其核心的文本生成方式是“下一个词元预测”,
2、即根据已有上下文,逐个词元地构建出连贯的回答。应用场景:代码生成与辅助智能问答、对话机器人机器翻译内容创作、文本摘要为何需要模型融合来增强LLM?单个模型的局限性各有所长:不同LLM因其训练数据、模型结构或训练策略的差异,在不同任务或能力维度上表现各异。例如:Claude更擅长代码,GPT4.5更擅长创意写作。没有任何一个LLM是全能且完美的。融合的巨大潜力博采众长:有效整合多个模型的独特优势。目标创造能力更全面、性能更强大的“超级”模型。显著提升特定基础模型在某些方面的能力。Better Model模型融合的现有路径:概览主流技术方向1.模型集成(Ensemble)2.专家混合(Mixtur
3、e of Experts-MoE)3.模型合并(Model Merging)4.显式模型融合(Explicit Model Fusion-EMF)每种方法都有其适用场景和局限性。模型融合的现有路径(1/3)模型集成(Ensemble)原理:聚合多个独立模型的预测结果(如投票、加权平均)。挑战:推理成本高,需要同时运行所有成员模型,计算资源消耗大。混合专家模型(MoE)原理:模型包含多个“专家”子网络,通过门控机制在推理时仅激活一部分专家。挑战:显存开销大,推理时仍需存储所有专家的参数。模型融合的现有路径(2/3)模型合并(Model Merging)原理:对相同基础模型的不同微调版本进行权重上
4、的算术操作(如平均、加权求和)挑战:同质性要求:通常仅限于架构和尺寸完全相同的模型。干扰问题:不同微调任务学习到的知识可能相互干扰。模型融合的现有路径(3/3)显式模型融合(EMF)核心思想:多教师知识蒸馏。将一个或多个“教师”源LLM的知识,迁移到一个“学生”目标LLM中。常见方式:目标模型学习拟合源模型输出的概率分布(如Logits)。适用性:可融合不同架构和大小的模型,推理时无额外开销。EMF 的核心挑战显式模型融合(EMF)面临的主要障碍:词表对齐:不同LLM拥有不同的词汇表(Tokenizers),在融合输出概率前,必须对齐词汇,过程复杂且可能损失信息。分布矩阵合并:不同模型的输出L
5、ogits尺度、偏好可能差异巨大,如何有效地合并来自不同特性模型的概率分布是一个难题。复杂性与噪声引入:对齐和合并过程操作复杂、效率低下,极易引入噪声和错误,反而可能损害最终的融合效果。新思路:隐式模型融合(IMF)核心思想“学其行,不学其思”:让目标模型学习强大的源LLM最终的高质量回答,而不是模仿其内部复杂的概率分布。主要优势1.避开难题:无需复杂的词汇对齐与分布矩阵合并。2.关注结果:直接以生成优质内容为目标,更高效。3.扩展性好:易于应用于各种不同的LLM。本文要解决的核心问题:如何有效实现IMF,并解决源/目标模型间的分布差异?背景知识铺垫什么是微调(Fine-tuning)?核心概
6、念:在已经过大规模数据预训练的通用大模型(左图)之上,使用特定任务或特定领域的数据集进行进一步训练(右图)。目标 使模型适应特定任务的需求,学习特定领域的知识或风格。就像一个知识渊博的通才,通过短期专门培训,成为某个领域的专家。应用示例 让通用模型变得更擅长医疗问答。让模型模仿特定作家的写作风格。从通用微调到偏好优化 偏好优化可以被看作是一种特殊且至关重要的微调阶段。在基础模型具备了通用能力后,我们不仅希望它能“做对”,更希望它的行为方式符合我们的期望,即“做好”。这一步通常被称为对齐(Alignment),是当前所有先进对话模型训练流程中不可或缺的环节。什么是偏好优化(Preference