当前位置:首页 > 报告详情

张俊林-从DeepSeek R1的复现看深度思考模型的未来.pdf

上传人: 哆哆 编号:631133 2025-04-19 33页 20.60MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张俊俊林林 新新浪浪微微博博首首席席科科学学家家及及A AI I研研发发部部负负责责人人中国中文信息学会理事,中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍这就是搜索引擎:核心技术详解、大数据日知录:架构与算法作者。演演讲讲主主题题:从从D De ee ep pS Se

2、 ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会从从D De ee ep ps se ee ek k R R1 1的的复复现现看看深深度度思思考考模模型型的的未未来来张俊林ML-SummitML-Summit目目录录DeepSeek R1介绍R1复现得到的经验深度思考模型的未来ML-SummitML-SummitML-SummitML-SummitDS不仅是中国大模型在全球舞台上的一次重要突破,更是中国AI技术实力的体现。DeepSeek R1复现开源了OpenAI o1o3的深

3、度思考能力,代表了新型强化学习Scaling Law,引领大模型开启快速能力提升第二增长曲线DeepSeek 时刻APP 7天用户过亿,创造历史最快记录APP下载量很快冲到各国第一黑神话.悟空制作人冯骥称之为国运级创新ML-SummitML-Summit有趣的问题:深度思考模型为何会出现Aha Moment?DeepSeek R1的Aha Moment时刻DeepSeek ZeroAha MomentML-SummitML-Summit有明确Reward的场景(数学&Code),使用Rule-Based RM要明显好于PRM or ORM(Reward Hacking)DeepSeek R1强

4、化学习方法:GRPO(1/2)Rule-Based Reward ModelReward HackingML-SummitML-SummitGRPO和Kimi K1.5强化学习基本思想是类似的DeepSeek R1强化学习方法:GRPO(2/2)GRPO的基本思想ML-SummitML-Summit阶段1:提升深度思考训练数据质量+阶段2:SFT+RL标准Post-TrainingDeepSeek R1的两阶段训练过程DeepSeek R1的两阶段训练过程ML-SummitML-SummitML-SummitML-Summit多项复现证明:如果深度思考数据质量够高,是不需要太大数据量的经验:深

5、度思考的数据质量比数据数量更重要(1/2)S1Less is More(LIMO)ML-SummitML-Summit数据质量的含义是什么?问题多样性&问题难度&Trace质量经验:深度思考的数据质量比数据数量更重要(2/2)问题多样性问题难度Trace质量ML-SummitML-Summit从Test Time Scaling的角度来看,蒸馏是次优结果,不如SFT+RL可扩展性强经验:只有蒸馏不够,强化学习是必要的RLSFTFrom:Scaling Test-Time Compute Without Verification or RL is SuboptimalML-SummitML-Su

6、mmitSFT阶段的作用:消除混合语言问题(DS)/使RL效果更好经验:SFT阶段不必要但是重要SFT能提高RL效果From:Demystifying Long Chain-of-Thought Reasoning in LLMsML-SummitML-Summit多项复现证明:采用由易到难的课程学习不仅有助于增加RL效果,也能增强训练稳定性经验:课程学习有助于提升RL的效果课程学习提升模型效果From:KIMI K1.5:SCALING REINFORCEMENT LEARNING WITH LLMS ML-SummitML-Summit多项复现证明:

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了深度思考模型DeepSeek R1及其复现,以及相关的研究成果和作者张俊林的演讲主题。DeepSeek R1是中国AI技术实力的体现,代表了新型强化学习Scaling Law,引领大模型开启快速能力提升第二增长曲线。作者提出深度思考的数据质量比数据数量更重要,并介绍了GRPO和Kimi K1.5强化学习基本思想,以及SFT阶段的作用。同时,作者也指出了GRPO的缺陷和Reward Hacking的问题。此外,文章还讨论了深度思考过程的长度与模型效果的关系,以及Test Time Scaling Law的天花板问题。最后,作者提出了VAPO和SPCT两种可能的解决方案,以及DeepPerception和Video-R1模型的研究进展。
"深度思考模型将如何改变未来?" "如何评价DeepSeek R1的复现及其影响?" "深度思考数据质量与数量哪个更重要?"
客服
商务合作
小程序
服务号
折叠