当前位置:首页 > 报告详情

1-1 表征强化学习研究及应用.pdf

上传人: 云闲 编号:102342 2021-01-01 17页 3.10MB

1、表征强化学习研究与应用华为诺亚方舟实验室李栋Security Level:目录1.背景2.强化学习研究3.强化学习业务落地Huawei Proprietary-Restricted Distribution31.背景 强化学习工业界进展 强化学习学术界进展ICLR2021词云图Covariant,视觉输入的RL机械臂控制应用于制造,物流仓储,零售等领域。强化学习短视频精细推荐用户观看时长提升10%+,流量分发场景效率提升100%强化学习MOBA游戏AI取得与职业选手相当的Elo分值强化学习芯片布局6小时完成布局,质量超过/匹配人类专家,可用于ASIC/TPU芯片强化学习相关挑战赛强化学习算法发

2、展路线图Huawei Proprietary-Restricted Distribution42.1 强化学习基本概念 强化学习关键要素智能体通过与环境交互,基于环境反馈信号以试错式学习方式学习最优策略。关键概念:状态 ,可以为离散或连续状态,低维或高维动作 ,可以为离散或连续动作奖赏信号 =(,)状态转移模型(+1|,)Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2马尔可夫性,+1与1无关vs.High rewardLow rewardLow-dim stateDiscrete actionHigh-dim stateContinuous action通常未知Huaw

3、ei Proprietary-Restricted Distribution52.1 强化学习基本概念 强化学习关键要素智能体通过与环境交互,基于环境反馈信号以试错式学习方式学习最优策略。关键概念:状态 ,可以为离散或连续状态,低维或高维动作 ,可以为离散或连续动作奖赏信号 =(,)状态转移模型(+1|,)观测=(|),智能体所看到的真正世界!Andrey MarkovS1S2S3(+1|,)(+1|,)a1a2S1S2S3(+1|,)(+1|,)a1a2o1o2o3End-effector position:x,yToy1 position:x,yToy2 position:x,y马尔可夫性

4、,+1与1无关Huawei Proprietary-Restricted Distribution62.1 强化学习基本概念 强化学习关键要素智能体通过与环境交互,基于环境反馈信号以试错式学习方式学习最优策略。值函数:状态值函数(V函数):贝尔曼方程=,+,(),=,+,(,)强化学习优化目标:优化控制策略,最大化期望累积奖赏回报动作值函数(Q函数):Richard BellmanS1S2S3(+1|,)(+1|,)a1a2通常未知-蒙特卡洛估计马尔可夫性,+1与1无关Huawei Proprietary-Restricted Distribution72.2 强化学习的挑战样本生成估计值函数

5、/环境模型策略提升采样慢!游戏世界采样1000 x wall-clock1x wall-clock现实世界采样挑战:数据效率低,难以直接在现实世界学习“9600 TPUs were used and over 60 000 years of StarCraft 2 wasplayed,costing 26 million for dedicated,uninterrupted TPUs.”https:/ Proprietary-Restricted Distribution82.3 强化学习的挑战数据效率低 如何提升数据利用率?从表征学习角度的思考End-effector position:x

6、,yToy1 position:x,yToy2 position:x,yMocoSimCLRYann LeCun:Self-supervised learningalgothmsthose that generate labelsfrom data by exposing relationshipsbetween the datas parts,believed to becritical to achieving human-levelintelligence.Yoshua Bengio:Reveal the way high-level semantic variables connect

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了华为诺亚方舟实验室在强化学习领域的研究与应用。首先,文章概述了强化学习在工业界的进展,包括在制造、物流仓储、零售等领域的应用。其次,阐述了强化学习的基本概念,如状态、动作、奖赏信号和状态转移模型等。然后,详细介绍了强化学习的关键要素和挑战,如数据效率低和收敛速度慢等问题。为解决这些问题,文章提出了一系列提升数据利用率的策略,如状态表征学习、策略/动作表征学习、任务空间表征学习、奖赏/Goal表征学习等。同时,还提到了利用环境模型时序前向和逆向推演的方法,以引入更丰富的梯度信号。最后,文章总结了华为诺亚方舟实验室在强化学习领域的技术应用和研究成果,包括多模态与交互行为模仿学习算法、多智能体信用分配学习、多样性策略生成等。
华为诺亚方舟实验室如何布局强化学习研究? 强化学习在现实世界应用中面临哪些挑战? 如何通过自监督学习提升强化学习数据利用率?
客服
商务合作
小程序
服务号
折叠