《隋伟-具身智能中的 VLA 技术及其应用.pdf》由会员分享,可在线阅读,更多相关《隋伟-具身智能中的 VLA 技术及其应用.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、具身智能中的 VLA 技术及其应用隋 伟源自智能驾驶,通往通用智能赋能智能驾驶让人类生活更安全、更美好加速机器智能进化促进人机和谐伴生共通的三大计算任务计算架构开发平台智能算法产业生态环境感知人机交互决策控制为机器人创造更简单的全链路开发基础设施机器人操作系统TogetheROS.BotROS2Model ZooLinuxUbuntuLinaro云端机器人云端开发环境仿真环境数据生成训练降本简易部署copilot可视化验证VSLAM3D Occupancy双目深度检测VLA/VLNLocomotion RLBEV机器人算法中心 NodeHubRDK机器人开发者套件RDK X3RDK X5RDK
2、 S100/S100P旭日智能计算芯片旭日 3旭日 5S100/S100P目录010203040605具身智能中VLA 的现状和挑战VLA 的主流架构VLA 的数据方案VLA 模型的量化部署前景和展望01VLA 的现状和挑战具身智能:堪比“计算机诞生”级的颠覆式创新1980个人电脑2007智能手机2015智能驾驶2022具身智能具身智能:堪比“计算机诞生”级的颠覆式创新G1基础自动化G2通用原子技能G3端到端操作技能G4端到端操作大模型G5AGIManipulation:特定场景特定任务训练效果好,泛化性较差交互对话:较为成熟,效率实时性需要提升Locomotion:盲眼运动较为成熟,平衡性较
3、好,环境实时反馈需要提升功能成熟度遥操:通过动捕设备、或者同构机械臂进行数据采集仿真:通过仿真器获取训练需要的数据优点:数据真实可用,有效性高缺点:采集成本高、效率低优点:采集效率高,成本低,数据多样缺点:与真实数据存在差异数据采集性能成本:快速进步、成本降低、灵活性通用性持续提升高 算 力 芯 片:满 足 具 身 大 模 型100Tops算力硬件本体9.9w3.9wVLA:从模块化往端到端发展,模仿学习往强化学习发展优点:模块化可解释性强、数据依赖少缺点:依赖规则,可扩展性差、无法处理高自由度本体优点:数据驱动,上限高,可处理复杂任务缺点:不可解释性,强依赖数据,泛化性差执行器械底层模型顶层
4、任务拆解任务运动规划基础模型数据驱动本体成熟海量数据长程数据当前阶段具身智能中的技术演变Detect and GraspImitation LearningVLA模块化2021BEV感知(2021-2022)端到端(2023-2024)VLA(2025-)感知结果直接输出到planning的空间,减少后处理 为端到端奠定基础 2D 感知结果通过规则化后处理转换到3D 空间 更多的learningbased 更少的rulebased 减少了模块间的信息损失 拟人化的效果,scalinglaw 得到验证 利用预训练模型的通用理解能力,解决cornercase 问题 智能驾驶开始具备思考能力场景泛化
5、性任务泛化性本体泛化性VLA 的模型结构VLM 在LLM 的基础之上增加视觉输入,在互联网上海量的数据训练,具备了通用“常识”能力VLA 在VLM 的基础之上,增加了Action Policy 模块,将VLM 的特征映射到Action,输出机器人的关节角度或者轨迹具身领域代表性的工作有OpenVLA、Pi-0、Pi-0.5、GrootN1 等VLA 的各种尝试叠衣服倒水打麻将做香囊收纳微波炉热菜VLA 操作模型的性能现状VLAVLA 的性的性能还处能还处在初级在初级阶段阶段1 1泛化能力和通用能力非常有限2当前的数据规模不足以发挥VLA的性能3 3硬件结构没有标准化,影响数据规模Success
6、Failed背景发生变化正常数据FailedFailed饮料放到了远处其它饮料瓶干扰VLA 需要海量的高质量、多样性数据,目前的条件不具备VLA 算力要求高,相比VA 更适合作为落地方案VL 和A的数据分布存在显著差异,L起不到作用,反而导致模型难以学习硬件和模型的限制,VLA 很难完成精细的任务安全等级控制精度自由度场景复杂度数据量智能驾驶极高厘米级3场景单一,但强交互博弈千万clips 级别,对应10w+小时具身智能极高毫米级30+场景复杂百小时级别02VLA 的主流架构一段式架构vs分层式架构传感器VLA(视觉-语言-动作模型执行器传感器System2执行器System1(“直觉”快系统