报告预览

3冯子勇-多模态特征嵌入的数据生成和技术前沿final.pdf

编号：991638

PDF 39页 8.75MB 下载积分：VIP专享

下载报告请您先登录！

3冯子勇-多模态特征嵌入的数据生成和技术前沿final.pdf

1、演讲嘉宾：格灵深瞳技术副总裁、灵感实验室负责人冯子勇博士多模态特征嵌入的数据生成多模态特征嵌入的数据生成和技术前沿和技术前沿0 1研究背景研究背景0 2数据生成数据生成0 3多模态特征嵌入模型多模态特征嵌入模型0 1 研究背景研究背景研究背景多模态特征嵌入应用场景丰富：电商（商品检索等）研究背景多模态特征嵌入应用场景丰富：安防（基于文本的行人查询等）研究背景多模态特征嵌入应用场景丰富：相册（图片检索）研究背景CLIP存在缺陷：双塔架构，不支持多模态输入文本长度受限77 全局对比学习导致的“bag-of-words”现象0 2 数据生成数据生成数据生成 RWKV-CLIP（重写）我们提出了

2、一个多样化描述生成框架，利用大型语言模型来精炼利用大型语言模型来精炼原始原始文本、合成文本、合成字幕和检测标签字幕和检测标签等等信息信息，以产生语义丰富的描述文本。数据生成 RWKV-CLIP（重写）提出的描述生成方法优于优于CapFusion数据生成 CLIP-CID（去冗余）我们提出了一种简单但有效的图像语义平衡方法，能够在保持卓越性能的同时在保持卓越性能的同时，从LAION400M数据集中移除移除43.7%43.7%的图像的图像-文本对文本对。数据生成 CLIP-CID（去冗余）我们提出了一种简单但有效的图像语义平衡方法，能够在保持卓越性能的同时在保持卓越性能的同时，从LAION400M

3、数据集中移除移除43.7%43.7%的图像的图像-文本对文本对。数据生成 RealSyn我们提出了一种有效且可扩展的多模态交错文档转换范式有效且可扩展的多模态交错文档转换范式，可以将现实世界中存在的大量非成对的数据例如图文交错文档用于CLIP预训练数据生成 RealSyn我们构建了面向真实世界图文交错文档的数据抽取和清洗数据抽取和清洗pipelinepipeline用于构建高质量句子和图片库数据生成 RealSyn我们构建了检索增强生成框架检索增强生成框架，基于构建的高质量句子和图片库为每一张图片匹配真实世界句子和合成文本数据生成 RealSyn我们构建并开源了构建并开源了RealSynRea

4、lSyn数据集数据集，包含15M、30M、100M三个规模。大量实验证明了RealSyn具有良好的数据缩放和模型缩放能力具有良好的数据缩放和模型缩放能力。数据生成 RealSyn我们数据、代码和模型都已经开源论文项目主页数据集0 3 多模态多模态特征嵌入特征嵌入模型模型研究背景Decoder-only LLMDecoder-only LLM用于特征嵌入学习展露头角MTEB Leaderboard研究背景如何用 MLLM学习特征嵌入？E5-V提出了一种单一模态训练方法，其中模型专门在文本对（NLI数据集）上进行训练。研究背景如何用 MLLM学习特征嵌入？VLM2Vec提出MMEB 研究背景如何用

5、 MLLM学习特征嵌入？VLM2Vec使用对比学习框架UniME-V1 阶段1:文本判别知识蒸馏引入NV-Embed V2当作教师模型来增强增强MLLMMLLM中中LLMLLM语言模块的嵌入能力语言模块的嵌入能力UniME-V1 阶段1:文本判别知识蒸馏经过第一阶段的训练，模型已经具有了一定的判别能力，但是存在缺点：1.第一阶段只使用文本训练LLM模块会导致图文对齐出现偏差图文对齐出现偏差，从而限制模型的表征能力2.第一阶段使用的通用的指令无法满足丰富的下游任务丰富的下游任务UniME-V1 阶段2:负样本增强的指令微调UniME-V11.过滤batch内假负样本假负样本2.筛选batch内困

6、难负样本困难负样本UniME-V1 MMEB BenchmarkUniME-V1 零样本图文检索1.UniME-V1在长短文本跨模态检索长短文本跨模态检索任务上优于EVA-CLIP-8B和VLM2Vec2.UniME-V1展示出了优异的组合理解能力展示出了优异的组合理解能力UniME-V1 UniME-V1 学到了什么？1.学习前模型更倾向于生成全局抽象概念相关的单词2.经过第一阶段训练后表达具体语义的单词排名提升3.经过第二阶段后表达具体语义具体语义的单词概率变大UniME-V1 UniME-V1 的不足1.Un

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（3冯子勇-多模态特征嵌入的数据生成和技术前沿final.pdf）为本站（可不可以）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。