张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf

上传人：蓝***

编号：1270089

2026-06-20

PDF 33页 4.75MB

《张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf》由会员分享，可在线阅读，更多相关《张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf（33页珍藏版）》请在三个皮匠报告上搜索。

1、新浪微博张俊林大模型在线策略蒸馏（On-Policy Distillation）:方法、优势与问题Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.On-Policy Distillation发展历史On-Policy Distillation方法与策略面临问题及改进策略多模态领域扩展最早的最早的OPDOPD工作：工作：Generalized Knowledge Distillation(GKD)Generalized Knowledge Distillation(GKD)GKD是最早提出OPD概念的工作，论文23

2、年6月公开到Arxiv，发表于ICLR2024.广义知识蒸馏（GKD）：不同于仅依赖固定输出序列，GKD通过教师对学生自生成序列的反馈进行训练（自蒸馏）。最早的OPD工作（2003年6月）在多种类型任务中取得明显效果最火的最火的OPDOPD工作：工作：Thinking MachineThinking Machine的的OPDOPD技术博客技术博客2025年10月，Thinking Machine发表了关于OPD实践的技术博客，在业界引起了极大关注。Thinking Machine的OPD Blog（2025年10月）OPD基础概念OPDOPD目前是大模型技术领域最热方向之一目前是大模型技术领域

3、最热方向之一2025年10月，Thinking Machine发表了关于OPD实践的技术博客，在业界引起了极大关注。OPD Google TrendsOn-Policy Distillation(OPD):On-Policy Distillation(OPD):机制与流程机制与流程在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。OPD伪代码RL训练流程（from SkyRL）(from Thinking Machine Blog)O

4、n-Policy Distillation(OPD):On-Policy Distillation(OPD):Forward KL vs.Reverse KLForward KL vs.Reverse KL在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。Per-token Reverse KL:Forward KL vs.Reverse KL:On-Policy Distillation(OPD):On-Policy Distill

5、ation(OPD):优势优势(1/2)(1/2)在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。Off-Policy:SFT优势：Dense Reward/节省计算资源劣势：Distribution DriftOn-Policy:On-Policy RL优势：Same Distribution劣势：Sparse Reward/耗费计算资源On-Policy Distillation(OPD):On-Policy Distillat

6、ion(OPD):优势优势(2/2)(2/2)在线策略蒸馏（On-Policy Distillation）融合了在线策略强化学习训练与蒸馏密集奖励信号的优势：从学生模型采集在线策略样本，由教师对样本中的每个 token 进行评分，据此更新学生策略并迭代重复。On-Policy Distillation优势：Dense Reward/Same Distribution-效果好/节省计算资源劣势：我们后面会谈工业界典型做法工业界典型做法 -Single Teacher OPDSingle Teacher OPD：阿里：阿里QwenQwen 3 3系列模型系列模型强到弱蒸馏（Strong-to-We

张俊林_大模型在线策略蒸馏（On-Policy Distillation）方法、优势与问题.pdf

相关报告