当前位置:首页 > 报告详情

吴翼-AReaL:一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf

上传人: 哆哆 编号:631144 2025-04-19 46页 13.34MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit清华大学交叉信息研究院助理教授,回国前曾任OpenAI全职研究员,研究领域为深度强化学习,多智能体学习,推理模型,人机交互等。2019年在美国加州大学伯克利分校获得博士学位,师从Stuart Russell教授;2014年本科毕业于清华大学交叉信息院计算机科学实验班(姚班),代表作包括强化学习泛化性 早 期 工 作 V a l u e I t

2、e r a t i o n N e t w o r k,多 智 能 体 学 习 最 高 引 算 法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.演演讲讲主主题题:A AR Re ea aL L:一一个个专专为为大大型型推推理理模模型型设设计计的的灵灵活活高高效效的的开开源源强强化化学学习习系系统统吴吴翼翼 前前O Op pe en nA AI I研研究究员员,清清华华大大学学交交叉叉信信息息院院助助理理教教授授ML-SummitML-Summi

3、t从 ReaLHF 到 AReaL面向大模型的强化学习系统演进吴翼 清华大学2025/04/19ML-SummitML-Summit1.什么是强化学习?和大模型的关系?2.RLHF&RL Scaling3.ReaLHF:高效率 RLHF 训练4.AReaL:针对 RL Scaling 的高效率训练系统目录ML-SummitML-SummitSequence decision-making 序列决策What if no“correct answer”?没有标准答案AI 需要自己去寻找正答案什么是强化学习(Reinforcement Learning)ML-SummitML-Summit强化学习的

4、关键组成:环境+行动+奖励Environment 环境(任务)Observation(观测)Transition(环境变化)Reward(奖励)Agent/Policy 策略 Input:observation(输入观测)Output:action(输出动作)Objective:maximize reward(最大化奖励)ML-SummitML-Summit强化学习算法核心是最大化奖励A method to find a policy with high rewards 强化学习是找到奖励最大化策略的过程Key ideas 关键点Exploration(探索)-Trial-and-error(

5、反复尝试)Value estimation(价值学习)-Estimate expected reward for past trials-根据经验预估每个动作的收益Exploitation-Take actions with higher rewards-选价值高的动作强化学习的核心是,为了获得更高的奖励,如何在 exploration 和 exploitation 之间进行平衡和取舍ML-SummitML-Summit强化学习算法:经典实例强化学习的出圈时刻:打游戏超越顶尖人类和大模型有什么关系?DeepMind AlphaGo Series 2016OpenAI Five DotaII A

6、I,2019ML-SummitML-Summit1.什么是强化学习?和大模型的关系?2.RLHF&RL Scaling3.ReaLHF:高效率 RLHF 训练4.AReaL:针对 RL Scaling 的高效率训练系统目录ML-SummitML-Summit语言模型的核心是Next Token Prediction描述自然语言的概率模型对于任意字符序列 X,P(x1xN):X“像”一个自然语言的概率-举例:P 清华大学=0.1;P 华学清大=0.000001链式法则 P c1cN=P c1P c2c1P cNc1cN1给定自然语言数据X,最大化 P(X)的概率-熟读唐诗三百首,不会作诗也会吟核

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了强化学习在大模型训练中的应用及其对大型推理模型的影响。吴翼教授,一位在深度强化学习、多智能体学习、推理模型和人机交互等领域有着深入研究的学者,介绍了强化学习的核心组成、关键点和算法。他阐述了强化学习如何通过探索和利用来平衡和优化模型性能,以及如何结合大规模自我生成的数据和精确的奖励函数来训练模型。吴翼教授还介绍了他在美国加州大学伯克利分校获得的博士学位,以及他在OpenAI的全职研究员经历。 文章提到了强化学习算法的一些经典实例,如DeepMind的AlphaGo系列和OpenAI的Five Dota II AI。吴翼教授详细解释了强化学习算法和语言模型之间的关系,以及如何将强化学习应用于语言模型,从而提升模型遵循人类指令的能力。他还讨论了如何通过特定的生成引擎和训练技术,如ReaLHF和Dynamic Batching,来提高强化学习训练的效率。 最后,吴翼教授介绍了他们团队开发的AReaL-boba模型,该模型在多个基准测试中取得了显著的成果,并在开源社区中引起了广泛关注。这个模型的开发标志着在推理模型的训练和优化方面取得了重要进展。
"强化学习如何提升大模型智能?" 如何实现高效训练?" 如何打破SOTA模型训练速度限制?"
客服
商务合作
小程序
服务号
折叠