1、12345LightLight-R1:R1:推理模型的课程学习和强化学习https:/https:/ 邹昊晟博士2025.04.192025.04.196自我介绍邹昊晟博士,360智脑算法资深专家主导了开源项目Light-R1和360-LLaMA-Factory博士毕业于清华大学TSAIL朱军教授组,研究强化学习本科毕业于清华大学电子系在大模型之前历任米哈游和第四范式的强化学习研究员是TF版tianshou的作者content目录01引言与背景02Light-R1系列简介03数据构建04课程Post-Training05强化学习GRPO06结论与未来方向9引言与背景引言与背景01数学推理的关键
2、长链推理模型在解决复杂数学问题时展现出卓越能力,是推动科学与技术进步的重要工具。算法规划的基石此类模型能够进行深度算法规划,对软件工程、人工智能等领域的发展至关重要。科学分析的加速器它们在科学分析中的应用,如数据分析和实验设计,显著提升了研究效率和准确性。几乎所有AI功能点,都先上长推理再说用户对输出时长容忍度+?(理论上)(实际上)难道长推理才是大模型原本的样子?直接回答反而是被削减出来的?长推理模型的重要性长推理模型的重要性输出越多,效果越好考试时间 x 10 x 10产品全面接入(满血)DeepSeek资源限制下的长推理模型资源限制下的长推理模型推理成本的资源限制推理成本的资源限制资源限
3、制下的长推理模型资源限制下的长推理模型训练成本的资源限制训练成本的资源限制如何快速让现有模型具备长推理能力?如何快速让现有模型具备长推理能力?DeepSeek-R1和k1.5都没有明说机器数、时间但模型大小、强化学习,本身都不便宜训练步数多DeepSeek-V3+Zero RL+Non-Zero RLk1.5和DAPO类似发现,但没开源大尺寸Light-R1-14B-DS GRPO训练16台8卡A80042小时低成本复现推理模型计算成本问题部署全容量R1级模型需要高昂的计算成本边缘设备和实时应用难以支持高参数模型低成本模型优势参数量少于10B的模型能适应资源受限环境保持扩展长链推理能力的同时降
4、低计算需求数据集设计有效利用有限资源进行模型训练是关键精心设计数据集以促进模型逐步掌握复杂推理强化学习挑战在小型模型上应用强化学习面临挑战维持响应长度稳定的同时提高奖励分数长推理任务强化学习在长推理任务中的应用受限需要解决响应长度与奖励分数之间的平衡问题课程学习策略课程学习策略有助于模型逐步掌握复杂推理设计合理的课程学习路径是提升模型性能的关键LightLight-R1R1开源工作初衷低成本复现推理模型低成本复现推理模型训练过程更可控,成本更低使用Light-R1开源数据,成本更低LightLight-R1R1开源影响力微信交流群微信交流群 x 3x 315LightLight-R1R1系列简
5、介系列简介02LightLight-R1R1主要亮点主要亮点从零超越从零超越DeepSeekDeepSeek-DistillDistill,数据质量和系列,数据质量和系列SOTASOTA,长,长SFTSFT后强化学习后强化学习GRPOGRPO提升提升从零:起点是不会长推理的模型Light-R1-32Bfrom Qwen2.5-32B-InstructAIME首次显著超越DeepSeek-Distill-32BLight-R1-xxB-DSfrom DeepSeek-Distill-xxB3k数据一致性提升数学SOTALight-R1-14B-DSfrom DeepSeek-Distill-14
6、BNon-zero RL首次GRPO明显提升AIMO公榜金牌GPQA code都不差LightLight-R1R1技术要点技术要点课程学习,强化学习,数据构建,成本可控课程学习,强化学习,数据构建,成本可控课程学习Light-R1采用课程式学习策略,逐步增加数据难度,促进模型推理能力的渐进式提升。强化学习包含SFT(监督微调)和DPO(直接偏好优化)阶段,最后GRPO强化学习,逐步提升模型推理能力。数据构建利用精心挑选的公开数据集,构建高质量训练资源,其他模型上一致性提升。高效低成本整个训练过程成本低廉,仅需$1000,6小时在12H800 GPU上完成,实现高性能模型的经济训练。统一复现评测