张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf-三个皮匠报告

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张俊俊林林新新浪浪微微博博首首席席科科学学家家及及A AI I研研发发部部负负责责人人中国中文信息学会理事，中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人，此前在阿里巴巴担任资深技术专家，负责新技术团队。技术书籍这就是搜索引擎：核心技术详解、大数据日知录：架构与算法作者。演演讲讲主主题题：从从D De ee ep pS Se

2、 ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会从从D De ee ep ps se ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来张俊林ML-SummitML-Summit目目录录DeepSeek R1介绍R1复现得到的经验深度思考模型的未来ML-SummitML-SummitML-SummitML-SummitDS不仅是中国大模型在全球舞台上的一次重要突破，更是中国AI技术实力的体现。DeepSeek R1复现开源了OpenAI o1o3的深

3、度思考能力，代表了新型强化学习Scaling Law，引领大模型开启快速能力提升第二增长曲线DeepSeek 时刻APP 7天用户过亿，创造历史最快记录APP下载量很快冲到各国第一黑神话.悟空制作人冯骥称之为国运级创新ML-SummitML-Summit有趣的问题：深度思考模型为何会出现Aha Moment?DeepSeek R1的Aha Moment时刻DeepSeek ZeroAha MomentML-SummitML-Summit有明确Reward的场景(数学&Code)，使用Rule-Based RM要明显好于PRM or ORM(Reward Hacking)DeepSeek R1强

4、化学习方法：GRPO（1/2）Rule-Based Reward ModelReward HackingML-SummitML-SummitGRPO和Kimi K1.5强化学习基本思想是类似的DeepSeek R1强化学习方法：GRPO（2/2）GRPO的基本思想ML-SummitML-Summit阶段1:提升深度思考训练数据质量+阶段2:SFT+RL标准Post-TrainingDeepSeek R1的两阶段训练过程DeepSeek R1的两阶段训练过程ML-SummitML-SummitML-SummitML-Summit多项复现证明：如果深度思考数据质量够高，是不需要太大数据量的经验：深

5、度思考的数据质量比数据数量更重要（1/2）S1Less is More(LIMO)ML-SummitML-Summit数据质量的含义是什么？问题多样性&问题难度&Trace质量经验：深度思考的数据质量比数据数量更重要（2/2）问题多样性问题难度Trace质量ML-SummitML-Summit从Test Time Scaling的角度来看，蒸馏是次优结果，不如SFT+RL可扩展性强经验：只有蒸馏不够，强化学习是必要的RLSFTFrom:Scaling Test-Time Compute Without Verification or RL is SuboptimalML-SummitML-Su

6、mmitSFT阶段的作用：消除混合语言问题（DS）/使RL效果更好经验：SFT阶段不必要但是重要SFT能提高RL效果From:Demystifying Long Chain-of-Thought Reasoning in LLMsML-SummitML-Summit多项复现证明：采用由易到难的课程学习不仅有助于增加RL效果，也能增强训练稳定性经验：课程学习有助于提升RL的效果课程学习提升模型效果From:KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS ML-SummitML-Summit多项复现证明：

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

相关报告