吴翼-AReaL：一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf-三个皮匠报告

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit清华大学交叉信息研究院助理教授，回国前曾任OpenAI全职研究员，研究领域为深度强化学习，多智能体学习，推理模型，人机交互等。2019年在美国加州大学伯克利分校获得博士学位，师从Stuart Russell教授；2014年本科毕业于清华大学交叉信息院计算机科学实验班（姚班），代表作包括强化学习泛化性早期工作 V a l u e I t

2、e r a t i o n N e t w o r k，多智能体学习最高引算法 MAPPO/MADDPG，OpenAI多智能体捉迷藏项目等，还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.演演讲讲主主题题：A AR Re ea aL L：一一个个专专为为大大型型推推理理模模型型设设计计的的灵灵活活高高效效的的开开源源强强化化学学习习系系统统吴吴翼翼前前O Op pe en nA AI I研研究究员员，清清华华大大学学交交叉叉信信息息院院助助理理教教授授ML-SummitML-Summi

3、t从 ReaLHF 到 AReaL面向大模型的强化学习系统演进吴翼清华大学2025/04/19ML-SummitML-Summit1.什么是强化学习？和大模型的关系？2.RLHF&RL Scaling3.ReaLHF：高效率 RLHF 训练4.AReaL：针对 RL Scaling 的高效率训练系统目录ML-SummitML-SummitSequence decision-making 序列决策What if no“correct answer”?没有标准答案AI 需要自己去寻找正答案什么是强化学习（Reinforcement Learning）ML-SummitML-Summit强化学习的

4、关键组成：环境+行动+奖励Environment 环境（任务）Observation（观测）Transition（环境变化）Reward（奖励）Agent/Policy 策略 Input:observation（输入观测）Output:action（输出动作）Objective:maximize reward（最大化奖励）ML-SummitML-Summit强化学习算法核心是最大化奖励A method to find a policy with high rewards 强化学习是找到奖励最大化策略的过程Key ideas 关键点Exploration（探索）-Trial-and-error（

5、反复尝试）Value estimation（价值学习）-Estimate expected reward for past trials-根据经验预估每个动作的收益Exploitation-Take actions with higher rewards-选价值高的动作强化学习的核心是，为了获得更高的奖励，如何在 exploration 和 exploitation 之间进行平衡和取舍ML-SummitML-Summit强化学习算法：经典实例强化学习的出圈时刻：打游戏超越顶尖人类和大模型有什么关系？DeepMind AlphaGo Series 2016OpenAI Five DotaII A

6、I,2019ML-SummitML-Summit1.什么是强化学习？和大模型的关系？2.RLHF&RL Scaling3.ReaLHF：高效率 RLHF 训练4.AReaL：针对 RL Scaling 的高效率训练系统目录ML-SummitML-Summit语言模型的核心是Next Token Prediction描述自然语言的概率模型对于任意字符序列 X，P(x1xN):X“像”一个自然语言的概率-举例：P 清华大学=0.1;P 华学清大=0.000001链式法则 P c1cN=P c1P c2c1P cNc1cN1给定自然语言数据X，最大化 P(X)的概率-熟读唐诗三百首，不会作诗也会吟核

吴翼-AReaL：一个专为大型推理模型设计的灵活高效的开源强化学习系统.pdf

相关报告