当前位置:首页 > 报告详情

夏轩-具身智能数据工程:技术探索与实践.pdf

上传人: 哆哆 编号:631129 2025-04-19 36页 14.21MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit夏夏轩轩 深深圳圳人人工工智智能能与与机机器器人人研研究究院院具具身身智智能能中中心心副副研研究究员员2017年博士毕业于上海交通大学。现为深圳市人工智能与机器人研究院副研究员,深圳市高层次人才。主要进行具身智能、多模态学习、缺陷检测、生成模型等方面的研究。主持国家自然科学基金项目、广东省自然科学基金项目、中国博士后科学基金项目,参与多项国家、

2、省、市基金项目以及多个企业联合项目。发表论文二十余篇,申请发明专利十余项。演演讲讲主主题题:具具身身智智能能数数据据工工程程:技技术术探探索索与与实实践践ML-SummitML-Summit2025 全球机器学习技术大会具身智能数据工程:技术探索与实践夏轩深圳市人工智能与机器人研究院ML-SummitML-Summit目录CONTENTS具身智能数据的价值具身智能的数据瓶颈具身智能数据工程具身智能数据生产平台AIRSPEED问题与展望ML-SummitML-Summit具身智能数据的价值01ML-SummitML-Summit具身智能数据价值所在具身智能数据的研发价值提高机器人功能的专业能力提

3、高机器人功能的泛化能力具身智能数据采集蓝海需求急剧增长供应商处于成长初期具身智能数据的获取门槛分散非标硬件依赖互联网机器人互联网用户:50亿数据估价:600美元/用户总估值:3万亿美元1机器人数量:100亿数据估价:1000美元/机器人总估值:10万亿美元2三倍以上1 Why Elon Musk thinks Earth will have more robots than humans,The Telegraph,https:/www.telegraph.co.uk/business/2024/04/01/elon-musk-earth-more-robots-than-humans,acc

4、essed 2024/04/082 The Tesla Robot:What will Optimus be able to do and how much will it cost?,The Sun,https:/www.thesun.co.uk/tech/21845043/tesla-robot-optimus-cost/,accessed 2024/4/08ML-SummitML-Summit具身智能的数据瓶颈02ML-SummitML-Summit已有研究:模仿学习的Scaling Laws物体/环境泛化能力模型对于新物体/新环境的泛化能力,与其训练时接触的物体/环境数量之间,呈现幂律

5、关系1单一场景成功率成功率与数据量呈现出Michaelis-Menten曲线:success_rate=100%*D/(K_m+D),其中D是数据量,K_m是达到50%成功率所需数据量2空间泛化能力空间泛化所需数据量与空间体积呈现幂律关系:如果要扩展到x倍的空间体积,那么数据量需要扩展大约x0.35倍21 Lin,Fanqi,Yingdong Hu,Pingyue Sheng,Chuan Wen,Jiacheng You,and Yang Gao.Data scaling laws in imitation learning for robotic manipulation.arXiv pre

6、print arXiv:2410.18647(2024).2 Tan,Hengkai,et al.ManiBox:Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation.arXiv preprint arXiv:2411.01850(2024).ML-SummitML-Summit具身智能在数据驱动范式下的瓶颈?模型性能增长遵循幂律,数据增长遵循线性真实数据的采集速度永远不可能跟得上模型性能的增长需求?合成数据可以在哪些方面对真实数据形成有效补充?具身智能的数据瓶颈究竟是什么?具身智能的

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了具身智能数据工程的价值、瓶颈、解决策略及未来展望。具身智能数据工程旨在通过系统设计、数据规范、技术开发和部署应用等环节,解决具身智能数据来源、技术路线和模型需求等方面的问题。文章指出,具身智能数据瓶颈包括数据质量需求高、数据数量需求高、数据多样性需求高,以及数据采集成本高昂和数据孤岛问题。为解决这些问题,文章提出了一整套工程体系,包括遥操作数据采集技术、真实世界数据采集技术、仿真环境数据生成技术和垂直场景技术部署与应用优化等。文章还介绍了开源具身智能数据生产平台AIRSPEED,该平台具有广泛的技术兼容性和软硬件兼容性,能够实现即插即用、快速上手的工作流程,并提高数据生产效率。最后,文章提出了具身智能数据资产化、建设数据交易平台、将开源大模型转化为智能体操作系统等未来展望。
"具身智能数据瓶颈如何解决?" "具身智能数据工程如何助力发展?" "AIRSPEED平台的优势与特点是什么?"
客服
商务合作
小程序
服务号
折叠