当前位置:首页 > 报告详情

温颖-基于强化反馈的大模型自我提升与推理增强.pdf

上传人: 哆哆 编号:631118 2025-04-19 59页 23.32MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit温温颖颖 上上海海交交通通大大学学A AI I学学院院长长聘聘教教轨轨副副教教授授上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持国家重点研发计划课题,上海市青

2、年科技英才扬帆计划。他的四十余篇研究成果发表在ICML,NeurIPS,ICLR,IJCAI,AAMAS等相关领域的一流国际会议上,并且获得CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖。他连续多年担任ICML,NeurIPS,IJCAI,AAAI,IROS,ICAPS,Operational Research等国际知名会议/期刊的PC成员或审稿人。演演讲讲主主题题:基基于于强强化化反反馈馈的的大大模模型型自自我我提提升升与与推推理理增增强强ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会基基于于强强化化反反馈馈

3、的的大大模模型型自自我我提提升升与与推推理理增增强强上海交通大学 温颖ML-SummitML-Summit2R Re ei in nf fo or rc ce em me en nt t L Le ea ar rn ni in ng g (R RL L)A method to find a policy with high rewards.Reward defines the optimal state and action distribution given the dynamics.K Ke ey y C Co on nc ce ep pt ts s:E En nv vi ir ro o

4、n nm me en nt t (s st ta at te e/o ob bs se er rv va at ti io on n,a ac ct ti io on n a an nd d t th he e d dy yn na am mi ic cs s)R Re ew wa ar rd d (s sc ca al la ar r f fo or r e ea ac ch h s st te ep p o or r e ep pi is so od de e)ML-SummitML-Summit3P Pr ro og gr re es ss s i in n R RL L O Ov ve

5、 er r t th he e P Pa as st t D De ec ca ad de eChampion-level drone racingDiscovering faster matrix multiplication algorithmsAlphaGo Zero,AlphaZero and AlphaStarML-SummitML-Summit4R Re ew wa ar rd d/V Va al lu ue e A At tt te em mp pt t 1 1:A Al lp ph ha aZ Ze er ro o l li ik ke e M MC CT TS S +S SF

6、 FT TTree Search to Enhance LLM Reasoning and TrainingML-SummitML-Summit5F Fr ro om m l li in ne ea ar r d de ec co od di in ng g t to o p pr ri in nc ci ip pl le ed d d de ec co od di in ng g1 1.H Ho ow w t to o s se el le ec ct t b be et tw we ee en n c ca an nd di id da at te e s st te ep ps s?Ev

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要概括了以下几个关键点: 1. 温颖,上海交通大学人工智能学院长聘教轨副教授,他的研究方向涉及多智能体学习、强化学习及博弈论在其中的应用。 2. 演讲主题:基于强化反馈的大模型自我提升与推理增强。介绍了强化学习(RL)是一种寻找高奖励策略的方法,奖励定义了给定动力学下的最优状态和动作分布。 3. 介绍了AlphaZero-like树搜索框架用于LLM推理增强,以及通过树搜索算法帮助语言模型训练。 4. 提出了OpenR:一个开源的推理框架,通过整合测试时计算、强化学习和过程监督来提升大语言模型(LLM)的推理能力。 5. 探讨了如何通过多智能体强化学习来培养LLM的元思维模式,以及语言游戏在培养不同行为方面的潜力。 6. 提出了语言游戏作为通往人工超人类智能(ASI)的途径,通过扩展和多样化训练数据,打破“数据复制陷阱”。
强化学习如何提升大模型推理能力? 多智能体强化学习如何优化语言模型? 语言游戏如何助力大模型迈向人工超人类智能?
客服
商务合作
小程序
服务号
折叠