1、可泛化强化学习和具身应用Generalized Reinforcement Learning and Embodied Generalization白辰甲 中国电信人工智能研究院具身智能研究中心PI,研究科学家2研究背景强化学习是实现通用人工智能的重要途径 AlphaGo/AlphaZero 成为人工智能发展的里程碑 策略梯度法的 RLHF 方法成为对齐大模型和人类偏好的基础 强化学习算法强调解决特定任务的专一性,泛化能力弱:不同任务的奖励函数不同,优化方向不同(Cross-Task)不同环境具有不同的状态转移函数(Cross-Domain)3策略泛化:迈向通用策略学习的途径研究背景仿真训练真
2、实迁移多任务/多场景/多技能决策1.技能驱动的可泛化强化学习2.跨域度量和具身仿真-真实迁移3.基础模型驱动的具身策略泛化大模型4研究提纲提纲1.技能驱动的可泛化强化学习2.跨域度量和具身仿真-真实迁移3.基础模型驱动的具身策略泛化5Trajectories generated from different skills in a Maze environment.Locomotion skill from paper Diversity is All You NeedStandRunSkill policyFinetuningPretraining 2M steps100k stepsRan
3、dom policyUnseen downstream tasks Skill Discovery技能学习驱动的策略泛化Max$(&;()聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20246技能学习驱动的策略泛化Method聚类.使用状态聚类来获得不同的技能访问区域,根据聚类中心来划分不同的技能策略.探索.每个技能进行独立的分区探索,不断扩展自身的访问空间,从而扩展总体的探索空间.约
4、束.对于探索后的区域进行重新聚类分配和约束,获得不重叠的访问空间聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20247技能学习驱动的策略泛化高维空间的状态聚类定义多个聚类中心!,!,!#,根据状态特征和聚类中心的内积来判断相似程度使用 Sinkhorn-Knopp 聚类算法判断获得每个类别数量相同的状态,使用交叉熵损失训练每个聚类中心使用独立的值函数网络进行学习聚类技能发现 Const
5、rained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 20248技能学习驱动的策略泛化分区独立探索根据聚类结果可以将不同状态分成多个独立的组使用 Particle 的熵估计方法来对每个组进行独立探索:分区独立探索可以在理论上保证全局对熵最大探索聚类技能发现 Constrained Ensemble ExplorationChenjia Bai,et al.Constrained Ensemble Exploration
6、 for Unsupervised Skill Discovery.ICML 20249状态分布约束策略和无重叠理想策略的距离使用内在激励进行近似分布距离和策略距离的关系技能学习驱动的策略泛化聚类技能发现 Constrained Ensemble Exploration策略约束和单调熵增Chenjia Bai,et al.Constrained Ensemble Exploration for Unsupervised Skill Discovery.ICML 202410技能学习驱动的策略泛化聚类技能发现 Constrained Ensemble Exploration聚类分区探索和策略约束