《张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf》由会员分享,可在线阅读,更多相关《张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、新浪微博 张俊林大模型在线策略蒸馏(On-Policy Distillation):方法、优势与问题Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.On-Policy Distillation发展历史On-Policy Distillation方法与策略面临问题及改进策略多模态领域扩展最早的最早的OPDOPD工作:工作:Generalized Knowledge Distillation(GKD)Generalized Knowledge Distillation(GKD)GKD是最早提出OPD概念的工作,论文23
2、年6月公开到Arxiv,发表于ICLR2024.广义知识蒸馏(GKD):不同于仅依赖固定输出序列,GKD通过教师对学生自生成序列的反馈进行训练(自蒸馏)。最早的OPD工作(2003年6月)在多种类型任务中取得明显效果最火的最火的OPDOPD工作:工作:Thinking MachineThinking Machine的的OPDOPD技术博客技术博客2025年10月,Thinking Machine发表了关于OPD实践的技术博客,在业界引起了极大关注。Thinking Machine的OPD Blog(2025年10月)OPD基础概念OPDOPD目前是大模型技术领域最热方向之一目前是大模型技术领域
3、最热方向之一2025年10月,Thinking Machine发表了关于OPD实践的技术博客,在业界引起了极大关注。OPD Google TrendsOn-Policy Distillation(OPD):On-Policy Distillation(OPD):机制与流程机制与流程在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。OPD伪代码RL训练流程(from SkyRL)(from Thinking Machine Blog)O
4、n-Policy Distillation(OPD):On-Policy Distillation(OPD):Forward KL vs.Reverse KLForward KL vs.Reverse KL在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。Per-token Reverse KL:Forward KL vs.Reverse KL:On-Policy Distillation(OPD):On-Policy Distill
5、ation(OPD):优势优势(1/2)(1/2)在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。Off-Policy:SFT优势:Dense Reward/节省计算资源劣势:Distribution DriftOn-Policy:On-Policy RL优势:Same Distribution劣势:Sparse Reward/耗费计算资源On-Policy Distillation(OPD):On-Policy Distillat
6、ion(OPD):优势优势(2/2)(2/2)在线策略蒸馏(On-Policy Distillation)融合了在线策略强化学习训练与蒸馏密集奖励信号的优势:从学生模型采集在线策略样本,由教师对样本中的每个 token 进行评分,据此更新学生策略并迭代重复。On-Policy Distillation优势:Dense Reward/Same Distribution-效果好/节省计算资源劣势:我们后面会谈工业界典型做法工业界典型做法 -Single Teacher OPDSingle Teacher OPD:阿里:阿里QwenQwen 3 3系列模型系列模型强到弱蒸馏(Strong-to-We