1、1甲子光年2024AIGC视频生成:走向AI创生时代视频生成的技术演进、范式重塑与商业化路径探索出品机构:甲子光年智库研究团队:张一甲、宋涛发布时间:2024.03#page#川用子光年一类人有一类人原力觉醒的方式物理学家想学习上帝;数学家想反抗上帝;哲学家认为自已就是上帝;生物学家想造上帝的反工程师说都不用,我们再造一个。甲小姐:站在两个世界之间甲子光年2017.10#page#Part 01AIGC视频生成的技术路线与产品演进趋势目录甲子Part 02AIGC视频生成推动世界走向“AI创生时代CONTENTSWPart 03“提示交互式”视频制作范式重塑视频产业链甲子光年04Part文娱领
2、域有望开启第二轮投资浪潮#page#甲子光年1.1Sora让文生视频迎来“GPT-3”时刻OpenAI发布文生视频模型Sora,堪称视频生成领域的“GPT-3”时刻“炸裂”视频效果成为讨论热点春节假期甚至还未结束,Sora已引发全民关注“Sora”一词在微信指数及百度指数的关注度快速上升效果逼真:普通人一时难以分辨lhi2月16日微快速上开微信指数百度关键给购处于高位时长感人:60秒高清视频生成2月14日指验目环530254.22%母东家日开来家“百万”剪辑:堪比专业的镜头语言多模态:文字、图片、视频皆可生成视频H了数据来源:百度指数、#page#甲子光年1.2Sora的展现效果Sora模型展
3、现自身超强视频生成及剪辑能力,超出其他竞品一个段位能力项Sora其他模型StableVideo模型Gen2pika1.0W.A.L.TEmu VideoDiffusiol60秒20秒以内视频时长Pika LabsStablityAMeta开发团队Runway基本其他固定尺寸比例,1920*1080之间视频2023年11月2023年11月2023年11月视频长宽比模型例如16:9,的任意尺寸9:16,1:1等4-184)2-499物3秒生成情况768*44部分upscale分辨率576*10245125125128961080p视频清晰度256014404096*2160后达到4k是否开源开源非
4、开源非开源非开源非开源路语言理解能力强Sora的语言理解能力更强,可将简短的用户提示转换为更长的详细描述多模支持文本生成视频我态生联被图片生成视频成Sora还可以生成图片,最高可达到2048*2048分辩率求视频生成视频报文本编辑视频支持学权Sora通过插额技术,实现完全不同主题和场景构图的视频之间的流畅自然的过漠效果视频扩展视频仅支持向后向前/向后扩展编辑视频的无缝连接支持不支持Sora可生成具有动态摄像机运动效果的视频,随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动联韩车业维部3D一致性Sora可以对短期和长期依赖关系进行建模,保持各个主体的时空连贯性和一致性独特路远程相干性
5、和物体持久性网模拟Sora以简单的方式模拟影响世界状态的行为,比如一个人吃完汉堡可以在上面留下咬痕至器世界交互能力收不支持数字世界模拟数据来源:甲子光年智库梳理,2024年#page#甲子光年1.2Sora的展现效果大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性OpenAI发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使Sora能够从物理世界中模拟人、动物和环境。值得一提的是OpenAI官网所说的“theyarepurelyphenomenaofscale一它们纯粹是“规模现象”,这再一次验证了“暴力美学文/图像/视频生视频的功能视频剪辑功能3D一致性:确保景别基于时空双维度
6、的视频扩展不同主题场景视频的无缝一键进行风格渣染连接模拟数字世界数据来源:公开资料,OpenAI技术文件,甲子光年整理,2024年#page#甲子光年1.3Sora的出现意味着AGI的又一个里程碑时刻Sora意味着scalinglaw(规模法则)再次验证,推动文生视频进入“GPT-3”时刻Scalinglaw(规模法则)的再次验证:虽然Sora并不十全十美,但它通过scalinglaw和原有模型拉开了差距,为视频生成领域提供了另一条可口以走通的路线,推动行业进入全新的阶段口文生视频的“GPT-3”时刻:从发展阶段类比,Sora更像文本模型的GPT-3时刻。ChatGPT让人类看到实现AGI的维