当前位置:首页 > 报告详情

朱军-扩散策略学习的若干进展.pdf

上传人: 哆哆 编号:631116 2025-04-19 46页 14.87MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit朱朱军军 I IE EE EE E F Fe el ll lo oww,清清华华大大学学人人工工智智能能研研究究院院副副院院长长,生生数数科科技技创创始始人人兼兼首首席席科科学学家家清华大学计算机系博世AI教授、IEEE Fellow、清华大学人工智能研究院副院长、计算机系人智实验室主任、生数科技创始人兼首席科学家。主要从事机器学习基础理论和高

2、效算法研究。曾获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等,入选国家级高层次人才计划、中国计算机学会青年科学家、MIT TR35中国先锋者等。演演讲讲主主题题:扩扩散散策策略略学学习习的的若若干干进进展展ML-SummitML-SummitDiffusion Policies:Reinforcement Learning with Diffusion ModelsJun ZhuTsinghua-Bosch Joint Center for MLDepartment of Computer Science and

3、Technology Tsinghua UniversityML-SummitML-SummitOffline RL:Data-driven;Open-loop RLML-SummitML-SummitOpen-loop RL leads to policy conservatism Online RLOffline RLBehavior(dataset)dist.Offline RL requires constrained policy optimization paradigmML-SummitML-SummitOpen-loop RL leads to policy conservat

4、ism Online RLOffline RLHighly inaccurate for unseen(s,a)pair without feedbackEstimation error can be corrected through Feedback LoopBehavior(dataset)dist.ML-SummitML-SummitBehavior modeling for offline RLConstrained Policy Optimization problem:has one optimal analytic solution:Resolving offline RL r

5、equires understanding the behavior distribution Generative modelingML-SummitML-SummitDiffusion Models for High-dim Data Generation Image,3DBlessing of Scale:self-supervisedly learn large models with a huge amount of unlabeled(multi-modal)data ProlificDreamer,NeurIPS 2023;CRM,ECCV 2024;DeepMesh,arXiv

6、 2025UniDiffuser,ICML 2023ML-SummitML-SummitDiffusion Models for High-dim Data Generation VideoVidu:the first high-performance video generator after Sora,released in April 27th,2024u:a Highly Consistent,Dynamic and Skilled Text-to-Video Generator with Diffusion Models,Bao et al.,arXiv 2024Vidu4D,Neu

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了扩散策略在机器学习中的应用,由朱军教授及其团队提出。他们认为扩散策略具有强大的建模能力,能够为连续控制问题提供多样化的解决方案。扩散模型作为基础,可以有效整合视觉和语言模型,提高模型表达性。文章提出了RDT-1B模型,作为双臂操作的最大和最佳表现基础模型,以及SRPO算法,通过评分正则化政策优化,提高动作采样速度。此外,EDA技术有效对基础扩散行为模型对齐,优化控制策略。未来研究方向包括构建具有显式物理原理的数据生成世界、为 agents 生成模拟互动世界等。
"扩散策略学习进展如何?" "如何实现高效的扩散政策对齐?" "扩散政策在多机器人训练中的应用前景如何?"
客服
商务合作
小程序
服务号
折叠