当前位置:首页 > 报告详情

3冯子勇-多模态特征嵌入的数据生成和技术前沿final.pdf

上传人: 可*** 编号:991638 2025-12-07 39页 8.75MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,全文主要内容概括如下: 1. **研究背景**:多模态特征嵌入在电商、安防、相册等领域的应用丰富,但现有CLIP模型存在缺陷,如不支持多模态输入、文本长度受限等。 2. **数据生成**: - 提出RWKV-CLIP,利用大型语言模型生成语义丰富的描述文本。 - 提出CLIP-CID,从LAION400M数据集中移除43.7%的图像-文本对,实现图像语义平衡。 - 提出RealSyn,构建面向真实世界图文交错文档的数据集,包含15M、30M、100M三个规模。 3. **多模态特征嵌入模型**: - Decoder-only LLM用于特征嵌入学习。 - VLM2Vec提出MMEB,使用对比学习框架UniME-V1。 - UniME-V1在长短文本跨模态检索任务上优于EVA-CLIP-8B和VLM2Vec。 - UniME-V2聚焦于借助MLLM理解能力助力统一多模态表征学习,优于UniME-V1。
突破CLIP局限?" RWKV-CLIP如何重塑?" 多模态检索新高度?"
客服
商务合作
小程序
服务号
折叠