1、证券研究报告行业点评报告自动化设备 东吴证券研究所东吴证券研究所 1/3 请务必阅读正文之后的免责声明部分请务必阅读正文之后的免责声明部分 自动化设备行业点评报告 人形机器人思考人形机器人思考-专题专题 2:我们离真正的具身我们离真正的具身智能大模型还有多远?智能大模型还有多远?2025 年年 02 月月 27 日日 证券分析师证券分析师 周尔双周尔双 执业证书:S0600515110002 021-60199784 行业走势行业走势 相关研究相关研究 Figure 01 超快迭代,大模型转变机器人决策逻辑 2024-03-15 新质生产力成为两会热门话题,人形机器人有望引领智能制造浪潮 20
2、24-03-06 增持(维持)Table_Tag Table_Summary 投资要点投资要点 背景:背景:2.20 日 Figure AI 发布 Helix VLA 大模型引爆市场关注,但我们发现市场对于具身智能大模型的认知仍待提升,本文希望通俗易懂的讲明白,我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远?问题一:具身智能大模型(问题一:具身智能大模型(VLA)是什么?)是什么?VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。问题二:问题二:VLA 大模型中分层和端到端
3、模式的区别?业界目前的选择?大模型中分层和端到端模式的区别?业界目前的选择?VLA 模型在执行过程中,一般有三个步骤1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。简单来说,如果这三个步骤是在一个模型中完成的,则是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。端到端模式的优缺点:端到端模式的优缺点:1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。结论结论&现实情况:现实情况:短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少
4、数企业例如特斯拉、星动纪元等坚持端到端模型,但从长期视角来看,端到端模式是最终实现具身智能涌现的必要条件。问题三:问题三:训练出好用的端到端大模型训练出好用的端到端大模型难点在哪里难点在哪里瓶颈在于数据。瓶颈在于数据。1)数据量差距巨大:)数据量差距巨大:相较于 VLM 大模型亿条级别的数据量,目前机器人实际单一场景的训练数据量仅仅在千条和万条级别,差距百倍。2)机器人数据获取难度极高:)机器人数据获取难度极高:相较于互联网上常见的语料供 VLM 大模型训练,机器人训练数据获取难度极高。目前有三种数据获取模式:真实数据遥操采集:问题在于成本极高,目前动捕设备一套价格在几十万区间,初创企业如果要
5、靠动捕设备遥操采集数据,成本非常高;虚拟生成数据:例如银河通用发布的 GraspVLA,通过虚拟仿真技术生成数据,用于机器人训练,但目前难以解决 sim-to-real gap。简单来说,就简单来说,就是用虚拟仿真数据训练机器人效果很差,如果是简单的抓放搬运场景,虚是用虚拟仿真数据训练机器人效果很差,如果是简单的抓放搬运场景,虚拟数据相对可行拟数据相对可行,但如果涉及到柔性场景,比如说衣服被子等柔性物体,但如果涉及到柔性场景,比如说衣服被子等柔性物体,就很难运用。就很难运用。因为涉及到柔性物体形变仿真,在物理层面本身就很难建模。真人数据映射:UMI 和 DexCap(斯坦福机器人团队)等正在探
6、索真人数据映射(即采集真实人的数据,通过某种映射关系转化为机器人数据),但目前还比较早期。3)遥操采集的数据本身存在毒性:)遥操采集的数据本身存在毒性:人在运动过程中会有额外的运动轨迹:例如简单的搬箱子,人在遥操录制过程中,可能会因为外界干扰停顿几秒,但这个停顿对于机器人来说就存在毒性,因为其无法理解人为什么要停顿。人的运动轨迹和机器人不一致:目前市面上大量机器人都是以旋转关节为主,而人的上下肢是直线关节,因此同样是搬箱子的动作,人和机器人的运动轨迹就是不一致的,这时候用真人的数据去训练机器人本身就存在毒性。-25%-18%-11%-4%3%10%17%24%31%38%2024/2/2720