报告预览

张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf

编号：1270089

PDF 33页 4.75MB 下载积分：VIP专享

下载报告请您先登录！

张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf

1、新浪微博张俊林大模型在线策略蒸馏（On-Policy Distillation）:方法、优势与问题Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.On-Policy Distillation发展历史On-Policy Distillation方法与策略面临问题及改进策略多模态领域扩展最早的最早的OPDOPD工作：工作：Generalized Knowledge Distillation(GKD)Generalized Knowledge Distillation(GKD)GKD是最早提出OPD概念的工作，论文23

2、年6月公开到Arxiv，发表于ICLR2024.广义知识蒸馏（GKD）：不同于仅依赖固定输出序列，GKD通过教师对学生自生成序列的反馈进行训练（自蒸馏）。最早的OPD工作（2003年6月）在多种类型任务中取得明显效果最火的最火的OPDOPD工作：工作：Thinking MachineThinking Machine的的OPDOPD技术博客技术博客2025年10月，Thinking Machine发表了关于OPD实践的技术博客，在业界引起了极大关注。Thinking Machine的OPD Blog（2025年10月）OPD基础概念OPDOPD目前是大模型技术领域最热方向之一目前是大模型技术领域

3、最热方向之一2025年10月，Thinking Machine发表了关于OPD实践的技术博客，在业界引起了极大关注。OPD Google TrendsOn-Policy Distillation(OPD):On-Policy Distillation(OPD):机制与流程机制与流程在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。OPD伪代码RL训练流程（from SkyRL）(from Thinking Machine Blog)O

4、n-Policy Distillation(OPD):On-Policy Distillation(OPD):Forward KL vs.Reverse KLForward KL vs.Reverse KL在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。Per-token Reverse KL:Forward KL vs.Reverse KL:On-Policy Distillation(OPD):On-Policy Distill

5、ation(OPD):优势优势(1/2)(1/2)在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。Off-Policy:SFT优势：Dense Reward/节省计算资源劣势：Distribution DriftOn-Policy:On-Policy RL优势：Same Distribution劣势：Sparse Reward/耗费计算资源On-Policy Distillation(OPD):On-Policy Distillat

6、ion(OPD):优势优势(2/2)(2/2)在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。On-Policy Distillation优势：Dense Reward/Same Distribution-效果好/节省计算资源劣势：我们后面会谈工业界典型做法工业界典型做法 -Single Teacher OPDSingle Teacher OPD：阿里：阿里QwenQwen 3 3系列模型系列模型强到弱蒸馏（Strong-to-We

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf）为本站（蓝色烟花）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。