白辰甲-可泛化强化学习和具身应用.pdf

编号:186328 PDF 61页 18.82MB 下载积分:VIP专享
下载报告请您先登录!

白辰甲-可泛化强化学习和具身应用.pdf

1、可泛化强化学习和具身应用Generalized Reinforcement Learning and Embodied Generalization白辰甲 中国电信人工智能研究院具身智能研究中心PI,研究科学家2研究背景强化学习是实现通用人工智能的重要途径 AlphaGo/AlphaZero 成为人工智能发展的里程碑 策略梯度法的 RLHF 方法成为对齐大模型和人类偏好的基础 强化学习算法强调解决特定任务的专一性,泛化能力弱:不同任务的奖励函数不同,优化方向不同(Cross-Task)不同环境具有不同的状态转移函数(Cross-Domain)3策略泛化:迈向通用策略学习的途径研究背景仿真训练真

2、实迁移多任务/多场景/多技能决策1.技能驱动的可泛化强化学习2.跨域度量和具身仿真-真实迁移3.基础模型驱动的具身策略泛化大模型4研究提纲提纲1.技能驱动的可泛化强化学习2.跨域度量和具身仿真-真实迁移3.基础模型驱动的具身策略泛化5Trajectories generated from different skills in a Maze environment.Locomotion skill from paper Diversity is All You NeedStandRunSkill policyFinetuningPretraining 2M steps100k stepsRan

3、dom policyUnseen downstream tasks Skill Discovery技能学习驱动的策略泛化Max$(&;()聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20246技能学习驱动的策略泛化Method聚类.使用状态聚类来获得不同的技能访问区域,根据聚类中心来划分不同的技能策略.探索.每个技能进行独立的分区探索,不断扩展自身的访问空间,从而扩展总体的探索空间.约

4、束.对于探索后的区域进行重新聚类分配和约束,获得不重叠的访问空间聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20247技能学习驱动的策略泛化高维空间的状态聚类定义多个聚类中心!,!,!#,根据状态特征和聚类中心的内积来判断相似程度使用 Sinkhorn-Knopp 聚类算法判断获得每个类别数量相同的状态,使用交叉熵损失训练每个聚类中心使用独立的值函数网络进行学习聚类技能发现 Const

5、rained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20248技能学习驱动的策略泛化分区独立探索根据聚类结果可以将不同状态分成多个独立的组使用 Particle 的熵估计方法来对每个组进行独立探索:分区独立探索可以在理论上保证全局对熵最大探索聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration

6、 for Unsupervised Skill Discovery.ICML 20249状态分布约束策略和无重叠理想策略的距离使用内在激励进行近似分布距离和策略距离的关系技能学习驱动的策略泛化聚类技能发现 Constrained Ensemble Exploration策略约束和单调熵增Chenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 202410技能学习驱动的策略泛化聚类技能发现 Constrained Ensemble Exploration聚类分区探索和策略约束

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(白辰甲-可泛化强化学习和具身应用.pdf)为本站 (哆哆) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠