3-5 基于 VQ-Diffusion 的文本到图像合成.pdf

编号:102323 PDF 36页 3.38MB 下载积分:VIP专享
下载报告请您先登录!

3-5 基于 VQ-Diffusion 的文本到图像合成.pdf

1、基于VQ-DIFFUSION的文本到图像合成陈栋 微软亚洲研究院 高级研究经理|Text-to-imagea grey and white cat wearing a tie.Quality Measurement:1)diversity,2)realism,3)matching degree|DALL E v2Text-To-Image(T2I)A dog with goggles staring at the camera.A person is preparing some art.a horse is running on the grasslandSketch-To-Image(S2

2、I)Image Completion(I2I)Image Manipulation(TI2I)Text-To-Video(T2V)Sketch-To-Video(S2V)Video Prediction(V2V)Video Manipulation(TV2V)The car is reversinggrasswaterhouseskytreeflowercupwallvasedoortableNWANWA is a unified multimodal pre-trained model that can generate new or manipulate existing visual d

3、ata(i.e.,images and videos)for 8 visual synthesis tasks.Text-to-image is a hot research fieldDALL EGLIDEDALL E v2ImagenPartiNUWAVQ-DiffusionCogViewGAN-based model text-to-image model1 Reed,Scott,et al.Generative adversarial text to image synthesis.ICML,2016.2014GAN2016GAN-INT-CLS2017StackGAN2018Attn

4、GAN2019MirrorGANDM-GAN2020DF-GANCPGAN2021DAE-GANXMC-GANLimitation of GAN based methods Produce good result for single domain images,e.g.,birds,flowers*Imageis from DF-GANAttnGANDM-GANDF-GAN Cannot handle complex scenesAuto-regressive ModelDecodertext 64645538520743062017Auto-regressive Transformers2

5、021.02Dall-E(OpenAI)2021.05CogView(Tsinghua)2021.11NUWA(MSRA)2022/06Parti(Google)Denoising Diffusion Model2021.05Diffusion models beat GAN(Google)2021.11VQ-Diffusion(MSRA)2021.12GLIDE(OpenAI)2022.04Dall-E 2(OpenAI)2022.05Imagen(Google)Reverse processForward(diffusion)processAuto-regressive vs.Denois

6、ing Diffusion ModelAuto-regressive Model(AR)Denoising Diffusion Model(Diffusion)Methods2021/02 DALL E(OpenAI)2021/05 CogView(Tsinghua)2021/11 NUWA(MSRA)2022/06 Parti(Google)2021/11 VQ-Diffusion(MSRA)2021/12 GLIDE(OpenAI)2022/04 Dall-E 2(OpenAI)2022/05 Imagen(Google)ProsFast trainingBetter qualityFas

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(3-5 基于 VQ-Diffusion 的文本到图像合成.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠