北京大学:2025生成未必理解:基于扩散模型能否实现视觉世界模型?(30页).pdf

编号:618984 PDF  PPTX 30页 7.53MB 下载积分:VIP专享
下载报告请您先登录!

北京大学:2025生成未必理解:基于扩散模型能否实现视觉世界模型?(30页).pdf

1、袁粒袁粒 Li YuanSchool of ECE,Peking University Shenzhen Graduate School生成未必理解:基于扩散模型能否实现视觉世界模型?“What I cannot create,I do not understand”Richard Feynman“What I can generate,I do understand”“What I can understand,I do generate”?基于扩散的生成真的理解了吗?Prompt:Step-printing scene of a personrunning,cinematic film s

2、hot in 35mm.Prompt:Fivegraywolfpupsfrolicking and chasing each otheraround a remote gravel road跑步机上的人反着跑步,不符合逻辑杯子水先撒出来,后破碎,不符合事实小狼的数量时而五只,时而三只或四只Prompt:Glass shattering with red liquid and ice cubesDiffusions Beat GANsV.S.V.S.Dhariwal,Prafulla,and Alexander Nichol.Diffusion Models beat Gans on Image

3、 Synthesis.NeurIPS 34(2021):8780-8794.4基于Diffusion的视觉生成发展DDPM was proposed in JuneProposed DDIMLatent Diffusion Model(LDM)was processed2020202120222023LoRA for Diffusion was proposed,quickly adopted for various applicationsGoogle proposed V1 of the Video Diffusion ModelVideo generation apps Pika V1,

4、Runway Gen1 and Gen2,and Stable Video Diffusion emergedAcademic ProgressApplication ProgressOpenAI proposed DALL-E,based on Transformer not DiffusionTHU proposedCogView,a text-to-image model based on Transformer,following DALL-EBased on Stable Diffusion,hit applications like MidJourney V1-V4 emerged

5、Stability AI open-sourcedStable Diffusion V1 and V2OpenAIreleasedSora,aT2V model,but no API access yet2024T2I-Adapter(PKU)andControlNet(Stanford)were proposed for precise T2I controlOpenAI proposedDALL-E 2,based on DiffusionCLIP:Aligning text and image spaces,later widely used for T2IKeling Model by

6、 Kuaishou&Vidu by Shengshu&Open Sora plan by PKUMeta proposedDiffusion Transformer,replacing U-Net with TransformerHuawei proposed the T2I model PixArt-based on DiTShanghai AI Lab proposedLatte,a T2V model based on DiT5视觉生成和视觉理解两条路线完全割裂6生成未必理解、理解不能生成未必理解、理解不能(视觉)生成;(视觉)生成;建模方式不一样:视觉生成依靠扩散模型,视觉理解依靠建模

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(北京大学:2025生成未必理解:基于扩散模型能否实现视觉世界模型?(30页).pdf)为本站 (LuxuS) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠