《计算机行业专题报告:MetaMovieGen的论文告诉我们什么?-241020(22页).pdf》由会员分享,可在线阅读,更多相关《计算机行业专题报告:MetaMovieGen的论文告诉我们什么?-241020(22页).pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、 计算机/行业专题报告/2024.10.20 请阅读最后一页的重要声明!Meta Movie Gen 的论文告诉我们什么?证券研究报告 投资评级投资评级:看好看好(维持维持)最近 12 月市场表现 分析师分析师 杨烨 SAC 证书编号:S0160522050001 分析师分析师 李宇轩 SAC 证书编号:S0160524080001 相关报告 1.智驾月报:补贴政策见效,网联化推进 2024-10-17 2.十大不容忽视的数据要素新政细节 2024-10-16 3.特斯拉发布 Cybercab,预期三年内量产 2024-10-13 核心观点核心观点 Movie Gen:音视频两手抓,模型效果亮
2、眼:音视频两手抓,模型效果亮眼。2024 年 10 月 4 日,Meta 团队发布论文Movie Gen:A Cast of Media Foundation Models,介绍了一系列基础模型 Movie Gen,该模型在文本到视频合成、视频个性化、视频编辑、视该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着频到音频生成等多个任务上取得了显著成果,标志着 Meta 正式进入视频生成正式进入视频生成赛道,与赛道,与 Sora、Pika、Runway 等进行竞争等进行竞争。Meta 通过扩大训练数据、计算资源和模型参数,使用 Flow Matchin
3、g(流匹配)方法训练的 Transformer 模型,打造 Movie Gen 的 2 种基础模型:Movie Gen Video(300 亿参数)和 Movie Gen Audio(130 亿参数),生成高质量的视频或音频。基于 Movie Gen Video 基础模型进一步训练与微调后,得到可以生成可个性化视频的 Personalized Movie Gen Video 模型和可精确编辑视频的 Movie Gen Edit。多模态大模型架构与训练方法持续创新,向实现应用落地大幅迈进。多模态大模型架构与训练方法持续创新,向实现应用落地大幅迈进。Movie Gen 系列模型打开创意生成与创意编
4、辑市场 AI 应用落地的新的想象空间,“文本控制生成”的方式将逐步融入创意工作流,“文本+UI”并存的模式将长期持续;模型架构创新尚无止境,“流匹配+最优传输+纯 Transformer”生成效率、质量均优于 DiT;对于多模态大模型预训练或是微调,高质量的数据及处理起到决定性作用;未来在模型训练方面,获得更多的算力基础依然是必不可少的,而架构等技术创新有望持续提升训练效率和生成质量,两者并不矛盾。投资投资建议建议:Scaling Law 持续发挥效力,建议关注:英伟达、AMD、博通、Vertiv、美光、Oracle、微软、海光信息、协创数据、中科曙光、浪潮信息、英维克、神州数码等;音视频创意
5、类赛道依然大有可为,建议关注 Adobe、万兴科技、美图公司等。风险提示:风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险 -34%-23%-12%-1%10%20%计算机沪深300上证指数 谨请参阅尾页重要声明及财通证券股票和行业评级标准 2 行业专题报告/证券研究报告 1 Movie Gen:音视频两手抓,模型效果亮眼:音视频两手抓,模型效果亮眼.4 2 Meta 四个模型的原理与训练方法四个模型的原理与训练方法.6 2.1 视频生成模型:创新模型架构实现高效训练视频生成模型:创新模型架构实现高效训练.6 2.2 音频生成模型:生成与画面和
6、情绪匹配的动效声、环境声音频生成模型:生成与画面和情绪匹配的动效声、环境声.12 2.3 个性化视频模型:用于生成特定人像的微调模型个性化视频模型:用于生成特定人像的微调模型.15 2.4 可编辑视频模型:无需大量监督视频数据实现模型可编辑视频模型:无需大量监督视频数据实现模型训练训练.17 3 Meta 论文发布带来的四点启示论文发布带来的四点启示.19 4 投资建议投资建议.21 5 风险提示风险提示.21 图图 1.Text-to-Video 功能示例功能示例.4 图图 2.Video-to-Audio 功能示例功能示例.5 图图 3.Video Personalization and