张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf

编号:1270089 PDF 33页 4.75MB 下载积分:VIP专享
下载报告请您先登录!

张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf

1、新浪微博 张俊林大模型在线策略蒸馏(On-Policy Distillation):方法、优势与问题Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.On-Policy Distillation发展历史On-Policy Distillation方法与策略面临问题及改进策略多模态领域扩展最早的最早的OPDOPD工作:工作:Generalized Knowledge Distillation(GKD)Generalized Knowledge Distillation(GKD)GKD是最早提出OPD概念的工作,论文23

2、年6月公开到Arxiv,发表于ICLR2024.广义知识蒸馏(GKD):不同于仅依赖固定输出序列,GKD通过教师对学生自生成序列的反馈进行训练(自蒸馏)。最早的OPD工作(2003年6月)在多种类型任务中取得明显效果最火的最火的OPDOPD工作:工作:Thinking MachineThinking Machine的的OPDOPD技术博客技术博客2025年10月,Thinking Machine发表了关于OPD实践的技术博客,在业界引起了极大关注。Thinking Machine的OPD Blog(2025年10月)OPD基础概念OPDOPD目前是大模型技术领域最热方向之一目前是大模型技术领域

3、最热方向之一2025年10月,Thinking Machine发表了关于OPD实践的技术博客,在业界引起了极大关注。OPD Google TrendsOn-Policy Distillation(OPD):On-Policy Distillation(OPD):机制与流程机制与流程在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。OPD伪代码RL训练流程(from SkyRL)(from Thinking Machine Blog)O

4、n-Policy Distillation(OPD):On-Policy Distillation(OPD):Forward KL vs.Reverse KLForward KL vs.Reverse KL在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。Per-token Reverse KL:Forward KL vs.Reverse KL:On-Policy Distillation(OPD):On-Policy Distill

5、ation(OPD):优势优势(1/2)(1/2)在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。Off-Policy:SFT优势:Dense Reward/节省计算资源劣势:Distribution DriftOn-Policy:On-Policy RL优势:Same Distribution劣势:Sparse Reward/耗费计算资源On-Policy Distillation(OPD):On-Policy Distillat

6、ion(OPD):优势优势(2/2)(2/2)在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。On-Policy Distillation优势:Dense Reward/Same Distribution-效果好/节省计算资源劣势:我们后面会谈工业界典型做法工业界典型做法 -Single Teacher OPDSingle Teacher OPD:阿里:阿里QwenQwen 3 3系列模型系列模型强到弱蒸馏(Strong-to-We

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf)为本站 (蓝色烟花) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠