余天予-突破多模态大模型的效率瓶颈：结构、数据与训练优化.pdf

上传人： bu****ng

编号：1188919

2026-03-31

PDF 21页 3.11MB

《余天予-突破多模态大模型的效率瓶颈：结构、数据与训练优化.pdf》由会员分享，可在线阅读，更多相关《余天予-突破多模态大模型的效率瓶颈：结构、数据与训练优化.pdf（21页珍藏版）》请在三个皮匠报告上搜索。

1、突破多模态大模型的效率瓶颈：突破多模态大模型的效率瓶颈：结构、数据与训练优化结构、数据与训练优化演讲人：余天予目录目录多模态大模型多模态大模型的效率瓶颈多模态大模型的效率瓶颈MiniCPMMiniCPM-V 4.5 V 4.5 高效多模态大模型高效多模态大模型01多模态大模型多模态大模型多模态大模型传统语言大模型仅能处理文本模态信息多模态大模型拓展大模型能力边界和应用场景，已成为人工智能前沿趋势和发展焦点主要特点基于大数据和人类反馈进行学习，与用户通过对话进行交互，能够处理多模态信息及多种任务，深层推理与常识运用能力大幅度提升2023/03/15:OpenAI 发布多模态对话模型 GPT-42

2、023/12/06:Google 发布多模态模型 Gemini2024/03/04:Anthropic发布多模态模型 Claude 32024/05/13:OpenAI发布原生多模态模型 GPT-4o2025/03/25:Google发布多模态模型 Gemini 2.52025/08/07:OpenAI发布多模态模型 GPT-5里程碑事件多模态能力支持多种模态建模，包括文本、图像、视频等多模态大模型多模态大模型的研究具有科学意义与实用价值科学意义从多模态数据中学习为智能突破带来巨大潜力，是智能跃迁的下一个关键引擎实用价值现实世界许多任务都需要理解多模态输入，例如具身智能、自动驾驶和视障群体辅助

3、技术人类是多模态的动物。没有多模态，神经网络的作用会远不及其上限。通过多模态学习，人类可以更好地了解世界。Ilya SutskeverOpenAI前首席科学家大部分的人类知识（以及几乎所有动物的知识）都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验，通过与物理世界的互动而获得的。Yann LeCun图灵奖获得者02多模态大模型的效率瓶颈多模态大模型的效率瓶颈传统 Scaling Law：高资源低能效的粗犷式增长更多智能=更多参数+更多数据+更多计算Scaling Law更多的智能=更多的参数+更多的数据+更多的计算高效 Scaling Law模型大小模型性能2B7B更高的更高的参数参数/计算量计

4、算量/数据数据与智能的转化率与智能的转化率100B低效 Scaling Law模型性能模型性能=(参数量,数据大小,计算量,模型架构,数据质量,训练方法)高效 Scaling Law当前范式我们的方案模型增加参数量高效率结构数据增加数据量高质量数据训练增加计算量高效率训练关键技术研究支持原生长宽比高效视觉 token 压缩统一的单、多图、视频建模仅使用英文文本-图像数据进行预训练中文跨语言多模态能力泛化通过细粒度的人类反馈/AI自动反馈数据对齐模型行为显著减少多模态幻觉Large Multilingual Models Pivot Zero-Shot Multimodal Learning a

5、cross Languages.ICLR 2024.Spotlight.RLHF-V:Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback.CVPR 2024.RLAIF-V:Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness.CVPR 2025.Highlights.统一高分辨率视觉编码框架多模态反馈数据构建多语言多模态泛化高效模型结构高效训练方法高质量数据构建LLaVA-UHD:an

6、LMM Perceiving Any Aspect Ratio and High-Resolution Images.ECCV 2024.幻觉多，难置信英文强，中文弱低清图，少细节效率瓶颈：结构多模态大模型的一个主要效率瓶颈就是巨大的视觉特征表征开销448x448,6s,2fpsInternVL3:3072 tokens Qwen2.5 VL：1536 tokens1920 x1080,6s,24fpsInternVL3:380K tokens Qwen2.5 VL：190K tokens1.Visual Instruction Tuning2.Inte

余天予-突破多模态大模型的效率瓶颈：结构、数据与训练优化.pdf

相关报告