1、魏 巍山西大学 计算机与信息技术学院计算智能与中文信息处理教育部重点实验室2024.10强化学习:从理论迈向实际聚焦Safe RL 和 Offline RL目 录CONTENTS第一部分第二部分研究背景与意义第三部分Safe RL 的一些探索Offline RL 的一些探索第四部分总结第一部分研究背景与意义1.1 强化学习理论研究进展迅速仿真环境 智能对战(围棋等)机器人控制(mujoco等)街机游戏(atari等)角色扮演游戏(RLCraft等)多智能体游戏(MPE、SMAC等)强化学习的来源与两个领域密切相关:心理学中的动物学习和最优控制的优化理论。1954年Minsky首次提出“强化”和
2、“强化学习”的概念和术语。1965年在控制理论中Waltz和傅京孙也提出这一概念,描述通过奖惩的手段进行学习的基本思想。经典强化学习研究大多局限于游戏等模拟环境,处于“好看不好用”的境地!经典算法 DQN(2015-Nature)DDPG(2016-ICLR)PPO(2017-ML)TD3(2018-ICML)QMIX(2018-ICML)1.2 强化学习在现实世界中的应用机器人 运动控制 自主导航自动驾驶 路径规划 交通管理金融 股票交易策略 风险管理医疗 个性化治疗 药物发现智能制造 生产优化 设备维护军事博弈 无人机空战 军事推演1.3 近期强化学习在实际应用中取得了重要进展强化学习在实
3、际应用中的典型案例可控核聚变(DeepMind,Nature 2022)塑造ChatGPT的RLHF(NeurIPS 2022)使用RL设计蛋白质架构(Science 2023)战胜无人机竞速世界冠军(Nature 2023)1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战第二部分Safe RL 的一些探索2.1 研究现状在复杂多变的现实世界中,实现安全的决策是一大难题无人工厂无人机协同智能交通无线传感器网络安全强化学习研究已经形成
4、了一套区别于经典强化学习的独特研究体系!【1970 Management Science】哥伦比亚大学的研究团队在建模住院计划的排队模型时考虑了安全问题【2021 AAAI】UIUC 研究团队具有独立奖励和安全约束的分布式安全多智能体强化学习【2023 AI】北大研究团队满足安全约束且保证联合性能提升的安全多智能体强化学习【2015 JMLR】UC3M 研究团队调研了安全强化学习的研究进展、分类准则,并指出了其发展方向【2017 ICML】CPOUC Berkeley 和 OpenAI 联合提出 CPO 算法,已成为当前安全强化学习算法的重要基准【2022 Annu.Rev.Control R
5、obot.Auton.Syst.】Toronto 研究团队系统的调研并归纳了机器人等自治系统相关的安全强化研究具有独立的研究问题、研究内容、研究方法以及基准测试环境2.2 研究内容 安全强化学习的研究思路经典的安全强化学习问题描述约束值 未来不可预测,零违背是最终追求,但现实中是不可能做到的,也不存在一般取零或者正数成本函数 ()成本函数设计一般是工程控制问题主要目标是要识别安全集决策风险 risk-neutral:风险中性,取期望,即总结不确定结果的平均结果(无视风险)worst-case:考虑最坏情况,不取期望,即根据最有害的结果来总结了不确定的结果(风险零容忍)risk-averse:考
6、虑风险情况,不取期望,倾向于不确定性小的结果(风险最小化)max,.,状态的部分可观测 平稳环境:部分可观测、不确定问题,环境存在潜在 MDP,但由于智能体感知能力有限(感知范围、观测噪声)无法获得完整、准确的环境信息信念状态估计非平稳环境:多主体,即多智能体问题,环境本身是非平稳且部分可观测的,例如环境中其它智能体也在更新策略,只有通过通信等方式获取它们的状态即策略意图才能有效决策全局(状态)估计2.3 基于集员信念状态的强化学习方法 动机 创新点引入了集员滤波,设计了一种集员信念状态学习方法,并提出了基于集员信念状态的强化学习算法(SBRL)当面对复杂噪声环境时,现有强化学习方法在学习信念