1、演讲嘉宾:格灵深瞳 技术副总裁、灵感实验室负责人 冯子勇博士多模态特征嵌入的数据生成多模态特征嵌入的数据生成和技术前沿和技术前沿0 1研究背景研究背景0 2数据生成数据生成0 3多模态特征嵌入模型多模态特征嵌入模型0 1 研究背景研究背景研究背景多模态特征嵌入应用场景丰富:电商(商品检索等)研究背景多模态特征嵌入应用场景丰富:安防(基于文本的行人查询等)研究背景多模态特征嵌入应用场景丰富:相册(图片检索)研究背景CLIP存在缺陷:双塔架构,不支持多模态输入 文本长度受限77 全局对比学习导致的“bag-of-words”现象0 2 数据生成数据生成数据生成 RWKV-CLIP(重写)我们提出了
2、一个多样化描述生成框架,利用大型语言模型来精炼利用大型语言模型来精炼原始原始文本、合成文本、合成字幕和检测标签字幕和检测标签等等信息信息,以产生语义丰富的描述文本。数据生成 RWKV-CLIP(重写)提出的描述生成方法优于优于CapFusion数据生成 CLIP-CID(去冗余)我们提出了一种简单但有效的图像语义平衡方法,能够在保持卓越性能的同时在保持卓越性能的同时,从LAION400M数据集中移除移除43.7%43.7%的图像的图像-文本对文本对。数据生成 CLIP-CID(去冗余)我们提出了一种简单但有效的图像语义平衡方法,能够在保持卓越性能的同时在保持卓越性能的同时,从LAION400M
3、数据集中移除移除43.7%43.7%的图像的图像-文本对文本对。数据生成 RealSyn我们提出了一种有效且可扩展的多模态交错文档转换范式有效且可扩展的多模态交错文档转换范式,可以将现实世界中存在的大量非成对的数据例如图文交错文档用于CLIP预训练数据生成 RealSyn我们构建了面向真实世界图文交错文档的数据抽取和清洗数据抽取和清洗pipelinepipeline用于构建高质量句子和图片库数据生成 RealSyn我们构建了检索增强生成框架检索增强生成框架,基于构建的高质量句子和图片库为每一张图片匹配真实世界句子和合成文本数据生成 RealSyn我们构建并开源了构建并开源了RealSynRea
4、lSyn数据集数据集,包含15M、30M、100M三个规模。大量实验证明了RealSyn具有良好的数据缩放和模型缩放能力具有良好的数据缩放和模型缩放能力。数据生成 RealSyn我们数据、代码和模型都已经开源论文项目主页数据集0 3 多模态多模态特征嵌入特征嵌入模型模型研究背景Decoder-only LLMDecoder-only LLM用于特征嵌入学习展露头角MTEB Leaderboard研究背景如何用 MLLM学习特征嵌入?E5-V提出了一种单一模态训练方法,其中模型专门在文本对(NLI数据集)上进行训练。研究背景如何用 MLLM学习特征嵌入?VLM2Vec提出MMEB 研究背景如何用
5、 MLLM学习特征嵌入?VLM2Vec使用对比学习框架UniME-V1 阶段1:文本判别知识蒸馏引入NV-Embed V2当作教师模型来增强增强MLLMMLLM中中LLMLLM语言模块的嵌入能力语言模块的嵌入能力UniME-V1 阶段1:文本判别知识蒸馏经过第一阶段的训练,模型已经具有了一定的判别能力,但是存在缺点:1.第一阶段只使用文本训练LLM模块会导致图文对齐出现偏差图文对齐出现偏差,从而限制模型的表征能力2.第一阶段使用的通用的指令无法满足丰富的下游任务丰富的下游任务UniME-V1 阶段2:负样本增强的指令微调UniME-V11.过滤batch内假负样本假负样本2.筛选batch内困
6、难负样本困难负样本UniME-V1 MMEB BenchmarkUniME-V1 零样本图文检索1.UniME-V1在长短文本跨模态检索长短文本跨模态检索任务上优于EVA-CLIP-8B和VLM2Vec2.UniME-V1展示出了优异的组合理解能力展示出了优异的组合理解能力UniME-V1 UniME-V1 学到了什么?1.学习前模型更倾向于生成全局抽象概念相关的单词2.经过第一阶段训练后表达具体语义的单词排名提升3.经过第二阶段后表达具体语义具体语义的单词概率变大UniME-V1 UniME-V1 的不足1.Un