赵波-多模态大模型时空感知理解能力前沿进展.pdf

编号:711788 PDF 49页 7.34MB 下载积分:VIP专享
下载报告请您先登录!

赵波-多模态大模型时空感知理解能力前沿进展.pdf

1、演讲人:赵波101020304长视频理解评测集 MLVU 长视频理解大模型 Video-XL 空间理解大模型 SpatialBot时空理解评测集 STI-Bench2014视频内容理解情节动作推理长视频的挑战信息量大信息冗余度高模型上下文有限5存在的问题:视频短且简单分类任务为主缺乏细节任务视频主题单一缺乏复杂问题6MLVU:Benchmarking Multi-task Long Video Understanding.Zhou et al.CVPR 2025.78910111272B7B1314151 Long Context Compression with Activation Bea

2、con.A plug-in module for transformer-basedLLMs to enable effective,efficient,and flexible compression of long contexts.推理前的 Token 压缩/挑选 会带来严重的信息损失利用 LLM 固有的 Next-token Prediction 能力实现视觉语义 Token 压缩Video-XL:Towards Vision Language Models For Extra-Long Video Understanding.Shu et al.CVPR 2025 Oral1617

3、Partition tokens into intervals Interleaving visual summarization tokens(VSTs)Encoding(i+1)Intervals by the KVs of previous VSTs18人工校验后:20k QAs19202122FramesFrames23在MLVU上不同固定帧压缩率下模型性能24252627280229仅用 RGB 图片无法精确感知距离30 传统 MLLM 未见过深度图 传统 MLLM 未在深度相关任务上训练过 传统多模态数据集缺乏深度相关数据31SpatialBot:Precise Spatial U

4、nderstanding with Vision Language Models.Cai et al.ICRA 20253233343536373839STI-Bench:Are MLLMs Ready for Precise Spatial-Temporal World Understanding?Li et al.2025 arXiv40414243444546Information condensation is the most important for long video understanding.Spatial and Temporal Intelligence(STI)remains largely underexplored.47探索 AI 应用边界Explore the limitsof AI applications49

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(赵波-多模态大模型时空感知理解能力前沿进展.pdf)为本站 (探险者) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠