徐海洋-多模态文档大模型mPLUG-DocOwl.pdf

编号:615364 PDF 61页 13.45MB 下载积分:VIP专享
下载报告请您先登录!

徐海洋-多模态文档大模型mPLUG-DocOwl.pdf

1、多模态文档大模型mPLUG-DocOwl徐海洋 阿里巴巴通义实验室演讲嘉宾徐海洋阿里巴巴通义实验室-高级算法专家负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG 工作 在 VQA榜 单 首 超 人 类 的 成 绩。在 国 际 顶 级 期 刊 和 会 议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文40多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mP

2、LUG,X-PLUG,AliceMind,DELTA。目 录CONTENTS1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望多模态文档大模型背景PART 01多模态文档大模型背景富含文字的图片(简称“文档图片”)在生活中无处不在!多模态文档大模型背景Revolutionizing Document AI with Multimodal Document Foundation Models多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力,例如 GPT4V多模态文档大模型背景多模态大模型模型(MLLM)主要关注于一般

3、图片的对话和问答mPLUG-OwlLLaVAInstructBLIP多模态文档大模型背景由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力多模态文档大模型挑战多模态文档大模型背景PART 01mPLUG-DocOwlmPLUG-DocOwl模型结构形状适应的切图模块1.=,2.同时考虑形状和进grid选择)每个子图在原图中第几行第几列mPLUG-DocOwl模型训练:训练任务mPLUG-DocOwl模型训练:训练任务mPLUG-DocOwl模型训练:训练数据mPLUG-DocOwl实验结果mPLUG-DocOwl1.5mPLUG-DocOwl

4、1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5模型训练mPLUG-DocOwl1.5模型训练mPLUG-DocOwl1.5模型训练mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5TinyChartTinyChartTinyChartTinyChartTinyChart

5、TinyChartTinyChartTinyChartmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-PaperOwlmPLUG-DocOwl开源实战PART 03mPLUG-DocOwl开源mPLUG-DocOwl Demo通义mPLUG多模态体系通义mPLUG多模态体系https:/ 04总结与展望多模态文档大模型展示了Promising效果,但仍然存在通用性、鲁棒性、效率等问题,仍然还有很多提升的空间;针对高分辨率,多页,探索更高效的视觉编码,图文融合结构;增加更多Domain数据,探索通用的、鲁棒的多模态文档大模型;大小模型协同,能够结合OCR、Chart等专业小模型;THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(徐海洋-多模态文档大模型mPLUG-DocOwl.pdf)为本站 (鲁大师) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠