A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf

上传人：可***

编号：991613

2025-12-07

PDF 48页 5.36MB

《A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf》由会员分享，可在线阅读，更多相关《A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf（48页珍藏版）》请在三个皮匠报告上搜索。

1、用于隐式模型融合的加权奖励偏好优化WRPO梁国晟中山大学语言智能技术实验室梁国晟中山大学语言智能技术实验室研究生梁国晟，中山大学计算机学院在读研究生，导师为权小军教授。本人主要研究方向为自然语言处理，专注于大语言模型、推理模型及模型融合等相关技术。科研方面，本人致力于自然语言处理前沿技术的探索与实践，已公开发表学术论文3篇，并申请发明专利1项。0102030405引言和动机背景知识铺垫WRPO 方法详解实验与结果结论与展望引言和动机大型语言模型(LLM)概览是什么？经过海量文本数据训练的超大规模人工智能模型，擅长理解和生成类似人类的语言。如何工作？其核心的文本生成方式是“下一个词元预测”，

2、即根据已有上下文，逐个词元地构建出连贯的回答。应用场景：代码生成与辅助智能问答、对话机器人机器翻译内容创作、文本摘要为何需要模型融合来增强LLM？单个模型的局限性各有所长：不同LLM因其训练数据、模型结构或训练策略的差异，在不同任务或能力维度上表现各异。例如：Claude更擅长代码，GPT4.5更擅长创意写作。没有任何一个LLM是全能且完美的。融合的巨大潜力博采众长：有效整合多个模型的独特优势。目标创造能力更全面、性能更强大的“超级”模型。显著提升特定基础模型在某些方面的能力。Better Model模型融合的现有路径：概览主流技术方向1.模型集成(Ensemble)2.专家混合(Mixtur

3、e of Experts-MoE)3.模型合并(Model Merging)4.显式模型融合(Explicit Model Fusion-EMF)每种方法都有其适用场景和局限性。模型融合的现有路径(1/3)模型集成(Ensemble)原理：聚合多个独立模型的预测结果（如投票、加权平均）。挑战：推理成本高，需要同时运行所有成员模型，计算资源消耗大。混合专家模型(MoE)原理：模型包含多个“专家”子网络，通过门控机制在推理时仅激活一部分专家。挑战：显存开销大，推理时仍需存储所有专家的参数。模型融合的现有路径(2/3)模型合并(Model Merging)原理：对相同基础模型的不同微调版本进行权重上

4、的算术操作（如平均、加权求和）挑战：同质性要求：通常仅限于架构和尺寸完全相同的模型。干扰问题：不同微调任务学习到的知识可能相互干扰。模型融合的现有路径(3/3)显式模型融合(EMF)核心思想：多教师知识蒸馏。将一个或多个“教师”源LLM的知识，迁移到一个“学生”目标LLM中。常见方式：目标模型学习拟合源模型输出的概率分布(如Logits)。适用性：可融合不同架构和大小的模型，推理时无额外开销。EMF 的核心挑战显式模型融合(EMF)面临的主要障碍：词表对齐：不同LLM拥有不同的词汇表(Tokenizers)，在融合输出概率前，必须对齐词汇，过程复杂且可能损失信息。分布矩阵合并：不同模型的输出L

5、ogits尺度、偏好可能差异巨大，如何有效地合并来自不同特性模型的概率分布是一个难题。复杂性与噪声引入：对齐和合并过程操作复杂、效率低下，极易引入噪声和错误，反而可能损害最终的融合效果。新思路：隐式模型融合(IMF)核心思想“学其行，不学其思”：让目标模型学习强大的源LLM最终的高质量回答，而不是模仿其内部复杂的概率分布。主要优势1.避开难题：无需复杂的词汇对齐与分布矩阵合并。2.关注结果：直接以生成优质内容为目标，更高效。3.扩展性好：易于应用于各种不同的LLM。本文要解决的核心问题：如何有效实现IMF，并解决源/目标模型间的分布差异？背景知识铺垫什么是微调(Fine-tuning)？核心概

6、念：在已经过大规模数据预训练的通用大模型（左图）之上，使用特定任务或特定领域的数据集进行进一步训练（右图）。目标使模型适应特定任务的需求，学习特定领域的知识或风格。就像一个知识渊博的通才，通过短期专门培训，成为某个领域的专家。应用示例让通用模型变得更擅长医疗问答。让模型模仿特定作家的写作风格。从通用微调到偏好优化偏好优化可以被看作是一种特殊且至关重要的微调阶段。在基础模型具备了通用能力后，我们不仅希望它能“做对”，更希望它的行为方式符合我们的期望，即“做好”。这一步通常被称为对齐(Alignment)，是当前所有先进对话模型训练流程中不可或缺的环节。什么是偏好优化(Preference

A1--梁国晟--用于隐式模型融合的加权奖励偏好优化WRPO.pdf

相关报告