2024从Sora模型看文生视频的技术路径、最新能力及行业影响报告(32页).pdf

编号:155042 PDF 32页 3.49MB 下载积分:VIP专享
下载报告请您先登录!

2024从Sora模型看文生视频的技术路径、最新能力及行业影响报告(32页).pdf

1、2 0 2 3 年深度行业分析研究报告2VnXkZrZjWdYmPaQ8Q6MnPqQoMqMfQpPtReRsQvNaQpOmNNZpNxOuOmMqQ2 1.1 发展现状:视觉生成热潮兴起,路径探索仍在继续 1.2 路径对比:扩散模型占据主流,自回归模型潜力可期 1.3 未来趋势:transformer优势凸显,多种模型构建方式有望呈现 1 从Sora看文生视频模型的技术路径 目 录 2 从Sora看文生视频模型的最新能力 2.2 理解能力:领会并细化提示词,学习及模拟物理世界 2.3 生成能力:视频长度优势明显,连贯性及可控性提升 2.4 其他能力:图生视频,视频扩展/编辑/拼接/模拟等

2、 2.1 模型背景:团队成员年轻有为,相关技术积累深厚 3.1 算力端:参数扩展提升训练算力消耗,应用落地拉动推理算力增长 3 从Sora看文生视频模型的影响 3.2 应用端:文生视频模型拓宽应用广度,前期有望以助手角色落地 3.3 其他:云服务将成算力重要补充,多媒体传输带动光通信需求 从模态发展情况来看:AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前,大语言模型在文本端的应用趋于成熟,图像和视频生成技术快速发展,AI视觉浪潮正加速到来。从市场催化节奏来看:受文本端杀手级应用ChatGPT(于22年11月推出)和图像生成代表应用Midjourney V5(于23年3月推出)

3、的影响,文本端和图像生成应用已于2023年迎来市场催化。2024年2月16日,OpenAI发布Sora文生视频,引发市场对视频生成领域的高度关注。未来,随着模型的持续迭代和相关应用的涌现,视频生成领域有望在24年迎来热潮。资料来源:西南证券 大模型多模态发展情况 1.1.1 发展现状:多模态发展已成共识,视觉生成热潮逐步兴起 3 文本端 趋势 基石 理论 核心 模型 2017年6月Transformer架构提出 2018年10月Bert初代模型 推 出,2020 年 6 月GPT-3奠定基石闭源模型 22年底23H1 Killer App-ChatGPT出现 代表 应用 2022年11月Cha

4、tGPT推出,成为杀手级应用 文生图像 2020年6月DDPM提出 2021年1月DALL-E为初代模型,22年8月Stable Diffusion基石开源模型 2023年3月Midjourney-V5推出,成为代表应用 文生视频 2022年4月 Diffusion base model kickoff 2022年9月出现Make-A-Video、ImagenVideo等;2024年2月Sora模型 2023年11月29 日Pika-1.0推出,拉开视频生成应用的帷幕 文生3D 2020年3月NeRF论文发表;2023年8月提出 3D Gaussian Splatting/2023年12月Tr

5、ipo的推 出和2024年1月Genie-1.0文生3D应用崭露头角 23Q2至今 众多图像生成应用涌现 24H225H1 视频生成或迎来ChatGPT时刻 2025年及以后 3D生成领域加速发展 从理论到应用的历时逐步缩短,多模态时代加速到来从理论到应用的历时逐步缩短,多模态时代加速到来 1.1.2 发展现状:文本端技术路径收敛于LLM,视觉生成领域仍在探索 多模态大模型技术路径情况 技术路径 当前主流 潜在路径 是否收敛 LLMTransformerDecoder only 扩散模型 Stability AIStable Diffusion OpenAIGLIDE,DALL-E 2 Goo

6、gleImagen&Imagen 2 基于transformer的自回归模型:GoogleParti OpenAIDALL-E 1 扩散模型+transformer架构:OpenAIDALL-E 3 扩散模型:Stability AI-Stable video Diffusion GoogleImagen Video 基于transformer自回归模型:GoogleVideoPoet 扩散模型+transformer架构:GoogleW.A.L.T OpenAISora 2D向3D升维:先由扩散模型实现text-to-2D,再由NeRF实现2D-to-3D OpenAIPoint-E Goo

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2024从Sora模型看文生视频的技术路径、最新能力及行业影响报告(32页).pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠