1、具身智能的数据解决方案黄浴黄浴新讯智能新讯智能提纲 1 具身智能的概览 2 具身智能的挑战问题 3 数据金字塔 4 人类数据 5 机器人数据 6 合成数据 7 数据的使用 8 基准测试数据 9 评估挑战赛 10 总结1 具身智能的概览1 具身智能概论具身智能概论2 具身智能的基础理论具身智能的基础理论3 具身智能的大模型方法具身智能的大模型方法7 具身感知具身感知8 具身导航具身导航9 具身规划具身规划10 具身控制具身控制15 具身智能的安全性具身智能的安全性16 具身多智体协同系统具身多智体协同系统 17 具身智能的基准和评估具身智能的基准和评估 前言前言4 具身智能的硬件系统具身智能的硬
2、件系统5 具身智能的软件系统具身智能的软件系统6 具身智能的数据采集和生成具身智能的数据采集和生成11 具身世界模型具身世界模型12 视觉视觉-语言语言-动作模型动作模型13 空间智能空间智能14 基于人类数据的机器人学习基于人类数据的机器人学习2 具身智能的挑战问题具身智能的挑战问题 数据:极度缺乏 多样性 新模态 具身实体 人形机器人 灵活性 灵巧手 新传感器:触觉 模型泛化 目标 场景/环境 任务/行为 具身 域运动学结构移动性和工作空间感知和传感器布局远程操作模式具身多样性任务多样性目标多样性信息多样性3 数据金字塔数据金字塔 底层:互联网数据 网络数据和人类视频,提供广泛的视觉和行为
3、先验;视觉-语言表征的场景数据;从人类操作行为中提取的轨迹数据;中间层:合成数据 物理模型+世界模型+LLM;神经轨迹(视频-动作对);动作token;高层:真实操作数据 任务无关数据;具身多任务轨迹数据;目标-具身任务的轨迹数据。InternVLA-A1:机器人统一的理解、生成和动作机器人统一的理解、生成和动作预训练阶段,利用大规模开源机器人演示数据以及高保真合成数据来建立模型的广泛泛化能力。后训练阶段,利用专门的真实世界数据来优化模型的能力,使其能够精确地应用于物理场景。GR-Dexter:一个双臂灵巧手基于:一个双臂灵巧手基于VLA通用操作框架通用操作框架视觉-语言数据:包括图像描述、视
4、觉问答、图像接地和交错接地图像描述。视觉-语言数据仅用于训练 VLM 主干网络。开源的多个实体双臂人形机器人数据:Fourier ActionNet 数据集,OpenLoong Baihu数据集 和 RoboMIND数据集。人类轨迹:众包形式基于VR 设备的人体演示,超过 800 小时以自我为中心的视频,附带 3D 手部和手指追踪数据,附加以 Pico VR 设备收集数据。机器人轨迹数据用于训练 VLM 主干网络和动作 DiT。Motus:一个统一的潜动作世界模型一个统一的潜动作世界模型语言+图像+动作:机器人轨迹语言+图像:视频序列或图像-文本对图像+动作:与任务无关的交互数据仅语言:文本语
5、料库4 人类数据人类数据 2 人类操作数据:让机器人学习 自我为中心(egocentric);数据标注工具(SAM/Dino/LLM/VLM);具身实体:重定向(retargeting);动作空间对齐/迁移;Affordance:交互目标;1 自然场景数据:表征学习;3 基于VR设备;4 人机交互(人-在-环);NV DreamDojo:通用机器人世界模型:通用机器人世界模型 从 4.4 万小时自我为中心的人类视频中学习各种交互和灵巧控制;NV EgoScale:人:人-机灵巧操作迁移机灵巧操作迁移VLA框架框架 超过 20,854 小时动作标注的自我为中心人类视频训练一个VLA模型;VITR
6、A:人类活动视频人类活动视频的的可扩展可扩展VLA模型预训练模型预训练标注。1)判断摄像机是静止的还是运动的;2)DroidCalib、MoGe-2 和 DeepCalib 来估计摄像机内参;3)采用 HaWoR 重建摄像机空间3D手部模型,由MANO 手部参数模型表示;4)MegaSAM 估计运动摄像头姿态,深度先验深度估计采用MoGe-2;5)获得世界空间的3D手部运动序列,对手部运动进行样条平滑处理并去除异常值。5 机器人数据机器人操作数据 动作捕捉;DexCap;外骨骼/主从臂;ALOHA;GELLO;VR设备;OpenTeach;OpenTelevision;无机器人;UMI;Fas