当前位置:首页 > 报告详情

张俊林_大模型在线策略蒸馏(On-Policy Distillation)方法、优势与问题.pdf

上传人: 蓝*** 编号:1270089 2026-06-20 33页 4.75MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **OPD核心机制**:融合在线策略强化学习与密集奖励信号,通过教师对学生自生成序列的token评分更新学生策略,兼具Dense Reward和Same Distribution优势,效果好且节省计算资源。 2. **工业界实践**: - 单教师:阿里Qwen 3分两阶段蒸馏(离线+在线),对齐教师logits。 - 多教师:智谱GLM5(四领域混合RL)、小米MiMo-V2 Flash(领域专用教师)、美团LongCat-Flash(领域并行优化)、Nvidia Nemotron-Cascade 2(30B MoE,数学/代码SOTA)。 3. **关键问题与改进**: - Token不匹配:提出GOLD方案; - 教师依赖:SDFT自蒸馏降低成本; - 信息泄漏:RLVR+自蒸馏缓解。 4. **多模态扩展**:百度CORD(音频跨模态OPD)、VOLD(视频GRPO+OPD,效果显著提升)。
**OPD是什么?** **OPD有何优势?** **OPD如何应用?**
客服
商务合作
小程序
服务号
折叠