当前位置:首页 > 报告详情

崔淦渠-PRIME:结合隐式过程奖励的大模型强化学习.pdf

上传人: 哆哆 编号:631096 2025-04-19 49页 15.51MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit崔崔淦淦渠渠 上上海海人人工工智智能能实实验验室室青青年年科科学学家家上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML,NeurIPS,ICLR,ACL,KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超8000次。演演讲讲主主题题:P PR RI

2、 IMME E:结结合合隐隐式式过过程程奖奖励励的的大大模模型型强强化化学学习习ML-SummitML-Summit2025 全球机器学习技术大会强化学习与隐式过程奖励从从DeepSeek R1讲起上海人工智能实验室 崔淦渠ML-SummitML-Summit目录CONTENTSWhy RL?DeepSeek-R1Challenge of Process RewardImplicit PRM&PRIMEML-SummitML-SummitWhy RL?01ML-SummitML-SummitIlya Sutskever at NeurIPS 2024Go beyond imitationPre

3、-training will End?ML-SummitML-SummitThe next Scaling Law?Why Reinforcement LearningOne thing that should be learned from the bitter lesson is the great power of general purpose methods,of methods that continue to scale with increased computation even as the available computation becomes very great.

4、The two methods that seem to scale arbitrarily in this way are search and learning.Richard Sutton(ACM Turing Award)The Bitter LessonPretraining and finetuningReinforcement learningML-SummitML-SummitSome of the AI breakthroughs in the past 10 yearsWhy Reinforcement LearningAlphaGoAlphaStarAlphaProofA

5、lphaTensorML-SummitML-SummitSome of the AI breakthroughs in the past one yearWhy Reinforcement LearningOpenAI o1DeepSeek R1ML-SummitML-SummitRecap:Reinforcement Learninghttps:/lilianweng.github.io/posts/2018-02-19-rl-overview/The agent takes actions in an environment to maximize cumulative rewardsML

6、-SummitML-SummitDeepSeek-R102ML-SummitML-SummitDeepSeek-R1Key factors in scalable RL for LLMsA strong base policyDeepSeek-V3 671BUnhackable,accurate rewardsSimple policy gradient works wellGRPO REINFORCE+Avg.as baselineGuo et al.DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcemen

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
崔淦渠,上海人工智能实验室青年科学家,在清华大学计算机系获得博士学位,导师为刘知远副教授。他的研究方向是大语言模型的对齐与强化学习技术。他在国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超8000次。 在2025全球机器学习技术大会上,崔淦渠以“PRIME: 结合隐式过程奖励的大模型强化学习”为主题进行演讲。他提出了一种新的强化学习方法,即隐式过程奖励模型(Implicit PRM),通过将奖励表示为对数似然比,从而无需显式定义步骤和过程奖励,即可获得过程奖励。这种方法在样本效率和性能上优于传统的基于结果的奖励模型。 他还介绍了一种名为PRIME的算法,该算法将隐式过程奖励模型整合到强化学习中,通过在线提示过滤和稳定训练过程,提高了模型的性能。实验表明,与结果奖励相比,过程奖励更加样本高效,并且在测试集上表现更佳。 最后,崔淦渠提出了未来的研究方向,包括在语言、图像、视频等领域应用隐式过程奖励模型,以及探索在更广泛的环境中,如游戏、数学、编码等领域中的应用。
如何看待结合隐式过程奖励的大模型强化学习?" "从DeepSeek-R1讲起,崔淦渠带你了解强化学习与隐式过程奖励的奥秘" 如何利用隐式过程奖励模型推动机器学习技术发展?"
客服
商务合作
小程序
服务号
折叠