1、 1/42 2025 年年 5 月月 26 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 具身智能具身智能行业行业深度:深度:技术路线技术路线、市场机遇、市场机遇、产业链产业链及相关公司深度梳理及相关公司深度梳理 随着人工智能技术的飞速发展,具身智能正逐渐成为科技领域的前沿热点。具身智能融合了人工智能、机器人技术、机器学习、感知科学等多学科知识,通过物理载体与环境的交互,实现自主学习与智能决策,展现出巨大的应用潜力和商业价值。从工业自动化到家庭服务,从医疗康复到公共安全,具身智能的应用场景不断拓展,推动着人类社会向更加智能化的方向迈进。本报告深入剖析了具身智能行业的全
2、貌,报告从行业概述出发,详细梳理了具身智能的定义、核心要素、发展历程,进一步分析了推动其快速发展的关键驱动因素。同时,报告深入探讨了具身智能的行业现状、市场规模预测、技术路线选择,以及产业链上下游的构成与发展趋势。此外,报告还聚焦于具身智能领域的相关企业,分析其业务布局、技术优势与市场表现,并探讨了行业面临的挑战与未来技术趋势。为读者提供一份全面、深入的参考。目录目录 一、行业概述.1 二、驱动因素.6 三、行业现状及规模预测.8 四、具身智能技术路线.11 五、产业链分析.22 六、市场机遇.28 七、相关公司.35 八、发展挑战及技术趋势.39 九、参考研报.41 一、一、行业行业概述概述
3、 1、具身智能:人工智能具身智能:人工智能+机器人等物理实体机器人等物理实体 具身智能(Embodied Artificial Intelligence,EAI)是指有物理载体的智能体,在与物理世界的交互过程中,通过感知、控制和自主学习来积累知识和技能,形成智能并影响物理世界的能力。具身智能的实现方式多种多样,可以根据具体任务和环境需求选择合适的智能实体形态,其中人形机器人作为具身智能的典型代表,被视为实现具身智能的最佳载体之一。2/42 2025 年年 5 月月 26 日日 行业行业|深度深度|研究报告研究报告 2、四大核心要素及四大核心要素及应用体现应用体现 具身智能由四个核心要素组成:本
4、体、智能体、数据和学习进化框架。具身智能指的是那些能够感知周围环境、进行智能交流以及规划行动的智能系统。从机器人的角度出发,具身智能在机器人上的应用体现可以划分为三阶段:感知、推理、执行。(1)具身感知具身感知 机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:物体感知、场景感知、行为感知、表达感知。具身感知的过程主要包括以下几步:3/42 2025 年年 5 月月 26 日日 行业行业|深度深度|研究报告研究报告 (2)具身推理具身推理 具身感知的过程主要包括以下几步:任务规划、导航、具身问答。具身感知的过程主要包括以下几步:任务规划、导航、具身问答。任务规划:任务规划:任务规划
5、(Task Planning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步:1)将人类指令分解为机器人可执行的技能,2)执行技能。结合大模型的任务规划:结合大模型的任务规划:大模型作为转换器、大模型作为分解器。作为转换器:LLM+P,用 LLM 将状态信息描述成 PDDL 语言再进行规划,取代以往需要人工针对实际问题书写 PDDL 语言对任务进行建模;作为规划器:可以 zero-shot 进行任务规划。具身导航(具身导航(Embodied Navigation):智能体在):智能体在 3D 环境中移动完成导航目标。环境中移动完成导航目标。早期
6、的具身导航,通过构建一系列基于规则的组件和算法,实现有效的环境感知、定位、路径规划和避障。而基于学习的导航则利用深度学习与强化学习技术,提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征,基于学习的导航算法从大量数据中学习环境特征和导航策略,实现强自适应性和高灵活性。视觉导航:基于学习的导航的一个重要分支,它依靠计算机视觉来理解环境信息并做出导航决策。视觉语言导航:通过自然语言指令和视觉图像进行导航的任务,其目标是开发一种能够与人类进行自然语言交流并在现实 3D 环境中导航的具身智能体。1)大模型出现之前:主要通过 RNN,LSTM,Transformer 等