基于物理条件约束的可信视觉生成大模型.pdf

编号:615318 PDF 39页 13.06MB 下载积分:VIP专享
下载报告请您先登录!

基于物理条件约束的可信视觉生成大模型.pdf

1、基于物理条件约束的可信视觉生成大模型朱思语 复旦大学演讲嘉宾朱思语复旦大学教授复旦大学人工智能创新与产业研究院研究员,长聘正教授,博士生导师。朱思语本科毕业于浙江大学,博士毕业于香港科技大学。在博士阶段,作为联合创始人创立了3D视觉公司Alituzre,并后来被苹果公司收购。2017年至2023年,在阿里云人工智能实验室担任总监。2023年起,任职于复旦大学人工智能创新与产业研究院,担任研究员和博士生导师。朱思语的主要研究方向包括视频和三维生成式模型,涉及基于视觉的三维和视频的重建、生成、理解、方针和模拟。他发表了60余篇高水平会议和期刊论文,包括CVPR、ICCV、ICLR和TPAMI等计算

2、机视觉和机器学习领域,包括Hallo,Champ,AnimateAnything等有一定行业影响力的视频生成大模型。在40余个计算机视觉国际比赛和榜单上取得第一名。Visual generative modelVAE:maximize variational lower boundInputOutputVideo generative methodsGAN:Adversarial trainingVAE:maximize variational lower boundFlow-based models:Invertible transform of distributionsDiffusion

3、 models:Gradually add Gaussian noise and then reverse The field of video generation has seen rapid development,reaching several milestones.Diffusion for visual generation(1)Denoising Diffusion Probabilistic Models(DDPMs)Diffusion for visual generation(2)Stochastic Differential Equations(Score SDEs)K

4、ey Elements of visual Diffusion Models Pixel diffusion(original input)Latent space diffusion Unet TransformerSora,breakthrough Consistency:consistency in 3D rendering,long-range coherence,and object permanence.High fidelity.Surprising length:extended video length capability(Sora:1 minute vs.previous

5、 systems:seconds).Flexible resolution:generation of videos across various durations,aspect ratios,and resolutions.Sora,key technologies The DiT framework by Meta(2022.12)is designed for video processing.Googles MAGViT(2022.12)focuses on Video Tokenization.Google DeepMind introduced NaViT(2023.07)to

6、support various resolutions and aspect ratios.OpenAIs DALL-E 3(2023.09)enhances Video Caption generation for improved conditioned video creation.Modeling the physical world We know that it is very complicated real physical model.probabilistic bayesian inference;probabilistic graphical models.determi

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于物理条件约束的可信视觉生成大模型.pdf)为本站 (鲁大师) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠