1、演讲嘉宾:王冠中1多模态大模型能力与场景应用3多模态大模型开发套件PaddleMIX2多模态大模型架构演进及特点多模态大模型能力与场景应用1第一章节什么是多模态数据或者信息的多种表示形式多模态的价值自动驾驶模态:视觉、语音、雷达、激光融合:数据级、特征级、决策级融合智慧医疗模态:CT,MRI,X-ray,患者病历融合:辅助临床决策、融合检索系统全屋智能模态:语音命令、触碰控制、视觉交互融合:智能音箱、智能照明多模态大模型多模态大模型多模态大模型的能力多模态大模型多模态理解多模态生成1 The Dawn of LMMs:Preliminary Explorations with GPT-4V(i
2、sion).2023多模态理解能力基础感知自然图片摘要、问答公众人物识别、地点识别看图创作,小说生成细粒度图像理解文字识别、文档理解情感识别等简单推理图像交互复杂视觉推理专业图像(深度图、CT影像)学科知识(工业、医疗)图表分析,代码生成文生图数字人视频特效生成创建定制AI头像和视频语音克隆及视频创作短视频娱乐可控视频创作音色克隆Suno AI音频AI和音乐生成领域的创新Descript音频编辑和制作平台AI技术与视频编辑和创作工具相结合提供智能化视频编辑解决方案ElevenLabs AI文本转语音和语音克隆软件视频生成多模态生成能力分析原则多模态大模型应用场景分析多模态大模型必要性问题定义是
3、否开放小模型是否存在效果瓶颈小模型维护成本是否过高多模态大模型可行性大模型训练推理成本大模型幻觉问题解决大小模型结合方案必要性可行性1.传统OCR小模型无法处理图表数据2.传统pipeline方案误差严重3.小模型方案不具备视觉推理能力1.通用多模态大模型文档能力突出2.有监督精调激发不同格式分析能力3.多模态大模型和小模型协同优化生成式商业智能产品GBI商业图表数据复杂以多模态形式存在多模态大模型应用场景案例必要性可行性1.工业质检种类相对确定2.目标检测、图像分割单模型能够较好解决1.多模态大模型推理耗时长2.数据量少,可尝试文生图扩增数据3.大模型幻觉严重,依赖垂类数据训练缓解工业质检瑕
4、疵检测质检场景相对专一,存在长尾问题对召回率、时延要求较高多模态大模型应用场景案例多模态大模型架构演进与特点2第二章节1 A Survey on Multimodal Large Language Models.2024多模态大模型算法处于高速发展阶段,多模态呈现大一统趋势多模态大模型前沿发展趋势大语言模型为基础,搭建非文本模态1 A Survey on Multimodal Large Language Models.2024 多模态大模型架构演进架构1:大语言模型作为独立调度单元优点:快速搭建,易于扩展缺点:信息损失严重,存在效果瓶颈架构2:大语言模型作为多模态大模型子模块具备更高上线,更
5、好的多模态统一方案多模态大模型架构特点主流架构在多模态理解和多模态生成任务差异显著,输入输出统一架构初显成效多模态理解模型Encoder+Connector+LLM输入:多模态 输出:文本多模态生成模型扩散模型输入:文本 输出:多模态EncoderConnectorLLMVAEDiffusionnoiseLLM多模态输入输出统一模型当前学术界模型架构尚未统一输入:多模态 输出:多模态高分辨率输入策略CLIP-ViT模型结构CLIP-ViT为常见结构,重点优化高分辨率输入1Learning Transferable Visual Models From Natural Language Supe
6、rvision.20212 LLaVA-UHD:an LMM Perceiving Any Aspect Ratio and High-Resolution Images.20243 CogAgent:A Visual Language Model for GUI Agents.2023多模态理解模块-Encoder输入图像切片InternVL2,LLaVA-UHD多路encoderCogAgent,DeepSeek-VL多模态特征和文本特征对齐,各模块结构差异显著MLP:LLaVA-1.5,CogVLM,DeepSeek-VLQ-Former:BLIP-2,InstructBLIPPerce