1、DataFunSummitDataFunSummit#20242024多模态大语言模型领多模态大语言模型领域进展分享域进展分享殷述康/博士在读背景介绍多模态大语言模型介绍多模态大语言模型演进团队相关工作介绍未来展望01背景介绍背景-LLM正走向多模态 大语言模型(LLM)是近几年来最火热的方向之一 可以解决各种传统NLP任务,如文本分类、命名实体识别等 可以做更高级的任务 作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能力)做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,CoT进一步增强)然而LLM存在固有的限制 无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截
2、图给出源代码、理解一张表情包的含义 无法获取更多的多模态的世界知识,如名画、名人等背景-LLM正走向多模态 多模态大语言模型(MLLM)的兴起 就在近两年,工业和学术界都在积极转向多模态模型,比如OpenAI的GPT-4V、GPT-4o谷歌的Gemini-ProYin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549在短短的两年间,已有上百个模型涌现,包括大企业的闭源模型和学术社区的开源模型探索。背景-MLLM能做些什么 能做传统视觉/多模态任务Cited from arXiv:2309.17
3、421Caption任务计数任务定位任务背景-MLLM能做些什么 能做更复杂的复合型任务,比如基于视觉的感知和理解任务;Cited from arXiv:2309.17421图表推理根据图表写代码多模态大语言模型介绍02介绍-MLLM的基本方面 由于大企业的模型是闭源的,学术界正积极研究探索开源的模型。模型架构数据与训练方法模型评估介绍-MLLM的架构 常用的架构一般包含三个部分:编码器 连接器 大语言模型Yin,Shukang,et al.A survey on multimodal large language models.arXiv:2306.13549介绍-MLLM的架构 视觉编码器
4、 常用的是基于CLIP预训练的ViT 对于常见的224x224分辨率图片,patch大小为14,最后共得到14x14=256个tokensCited from arXiv:2211.01335介绍-MLLM的架构 连接器 MLP结构 不改变视觉token的数量,使用线性层或者多层感知机做投影。Q-Former 压缩图片token至固定的数量,提高运算效率 Q指query,使用一组可学习的query向量从视觉token中抽取更紧凑的表征信息Cited from arXiv:2305.06500Cited from arXiv:2304.08485介绍-MLLM的数据和训练方法 第一阶段:模态对齐
5、训练 将视觉的语义空间与文本空间对齐 一种做法是冻结LLM,训练视觉编码器和连接器 通常使用大量的图文配对数据训练,如caption数据。输入图片,预测图片的文本描述介绍-MLLM的数据和训练方法 第二阶段:指令微调训练 提升模型的指令遵循能力,学习泛化到各种任务 通常使用各种任务的数据,如VQA数据、检测数据等,并改造为指令格式(多轮对话形式)输入图片和指令,预测回答介绍-MLLM的评测 常规任务Benchmark 一般聚焦某个具体的特定任务,关注特定指标 VQA任务:要求模型基于图片内容进行回答,常关注浅层元素如物体类别、属性,有时涉及浅层推理,回答一般比较简单。一般使用准确率作为评估指标
6、介绍-MLLM的评测 专门Benchmark 除了基本的感知能力,还关注推理等能力,任务一般更为复杂、困难多模态大语言模型演进03演进-更高的分辨率 更高的分辨率能看见更多的信息,更准确地回答问题演进-更高的分辨率 如何提高视觉编码器的分辨率?思路一:使用更大的分辨率进行微调(Qwen-VL:224-448,arXiv:2308.12966)演进-更高的分辨率 如何提高视觉编码器的分辨率?思路二:将大分辨率的图片切成多块,每块依然是原来的分辨率 一般保留一张低分辨率的完整图片作为全局特征Cited from arXiv:2311.07575演进-更丰富的输入形式 从只支持单图输入到支持多图、视