1、 1/17 2023 年年 6 月月 2 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 具身智能产业深度:具身智能产业深度:技术模型分析、市场展技术模型分析、市场展望、相关产业及公司深度梳理望、相关产业及公司深度梳理 特斯拉 2023 年股东会上,马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,“如果人形机器人和人的比例是 2 比 1 左右,那么人们对机器人的需求量可能是 100 亿乃至 200 亿个,远超电动车的数量”。英伟达创始人黄仁勋在 ITF World 2023 半导体大会上也表示,AI 下一个浪潮将是“具身智能”。“具身智能”意指有身体并支持物理交
2、互的智能体,人形机器人为标杆产品。具身智能,首先需要听懂人类语言,分解任务、规划子任务,移动中识别物体,与环境交互,最终完成任务。人形机器人很好的契合了具身智能的要求,有望成为标杆应用。围绕具身智能,我们从下面几方面展开讨论:具身智能的概念是如何定义的,具体方案模块是如何设置的,发展历程又是怎样的,相关技术及模型有哪些,可能受益的相关公司都有哪些。希望通过这些问题的探讨,让我们对于具身智能有个浅显的了解。目录目录 一、具身智能概述.1 二、具身智能发展历程.3 三、具身智能相关技术及模型.5 四、相关产业梳理.9 五、具身智能相关公司.12 六、具身智能发展展望.14 七、参考文献.17 一、
3、一、具身智能具身智能概述概述 1.概念概念 具身智能(Embodied Intelligence)是指一种具备自主决策和行动能力的机器智能,它可以像人类一样感知和理解环境,通过自主学习和适应性行为来完成任务。要实现具身智能与环境实时交互并完成自主做事的功能,其所涉及到的主要环节可以抽象理解为包括感知、传输、决策、执行。感知层类似人的五官,负责收集环境信息,在单一场景下机器或许可以通过感知来绕过决策控制,比如1986 年,美国著名机器人制造专家罗德尼 布鲁克斯(Rodney Brooks)研发了第一个基于感知行为模式的轮式机器人,不需要中枢控制可以实现避让、前进和平衡等功能,但是如果想要让机器实
4、现与人类互动并完成多样化指令要求,它面对的可能是结合了语言、图像等多个模态的复杂信息,决策层的多模态处理就显得不可或缺。2/17 2023 年年 6 月月 2 日日 行业行业|深度深度|研究报告研究报告 决策层作为核心处理枢纽,需要类似人类大脑的处理能力,满足机器在理解指令、分解任务、规划子任务、识别物体完成人机交互和环境交互等方面的需求,多维度的人机交互在传统的机器人领域是一大难题,因而当下的研究更多体现在特定指令下对于环境交互的探索,也即如何更智能地执行特定物理任务上。而 ChatGPT 等 AI 大模型的快速突破提供了新的思路,有望充当机器人的大脑与人类进行多维度交互,从而更为出色完成任
5、务。此外,随着感知和决策的复杂化,传输层对于的实时性的要求日益提升,从而对传输速率和边缘计算等提出更高的需求。2.PIE 方案是实现具象智能的解决方案之一方案是实现具象智能的解决方案之一 PIE 方案是实现具象智能的解决方案之一,可分为三个模块具身感知(Perception)、具身想象(Imagination)和具身执行(Execution)。具象感知(Perception):交互感知,自动挖掘、定义具象概念。可以通过两种方式实现:1)全感知:构建一个大规模的数据库,包含我们所操作的这个世界模型(world model)的各种各样的知识,跟操作相关的知识,包括外形、结构、语义,以及 48 个真
6、实世界关节体类别等;2)具身交互感知:各种内容交互的感觉带来的全新感知,通过牛顿定律和数据驱动的结合,不断修正误差从而得到正确的模型。具象想象(Imagination):自动具身任务模拟,仿真引擎构建。通过名为 RFUniverse 的仿真引擎,这个仿真引擎支持 7 种物体(比如关节可移动的、柔性的、透明的、流体的)、87 种原子操作的仿真。当研究人员把物体输入,模型会在仿真引擎中进行想象操作。具身执行(Execution):多传感器合作,自意识执行误差。研究人员通过构建一个元操作库,调用各种元操作来解决执行的问题。通过半自动的 data collection and labeling,能够非