《孙亚博_办公领域多模态大模型的探索与实践.pdf》由会员分享,可在线阅读,更多相关《孙亚博_办公领域多模态大模型的探索与实践.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、SIT-SUMMIT 2026办公领域多模态大模型 的探索与实践构建智能化办公基座:从算法突破到程落地孙亚博|办公AI应算法负责个人简介孙亚博(Sun Yabo)办公AI应算法负责 专注于 语语模型模型(LLMLLM)与多模态领域研究 主导办公政务政务模模型型预训练体系建设 深度参与 MonkeyMonkey 系列模系列模型型开发及多模态落地 从0到1打造图图翻译能翻译能,实现端到端版式理解大模型时代的“理想与现实”理想:通用大模型通的惊艳表现视频成:多场景视频、图成代码成:标准的 IDE 逻辑辅助惊艳跑分:在标准测试集上的分表现现实:办公“深水区”垂直领域的残酷挑战模糊扫描件:分辨率不导致的
2、字丢失极密财报:严苛的数据安全与结构化精度折痕合同:复杂的版式理解与逻辑链条通通 vsvs 垂直:通垂直:通模型在办公领域往往感知失效,业务突破需深耕垂直解法模型在办公领域往往感知失效,业务突破需深耕垂直解法Agenda|议程大纲痛点分析分辨率悖论、算洞与链路误差累积等Text Monkey滑窗机制、Shifted Attention 与信息蒸馏MonkeyOCRMonkey OCR 结构化与 RL 强化学习工程实践图翻译落地与 52 种语互翻的业务实证PART 01痛点分析:办公场景的“深水区”一线视角,真实业务实践痛点一:高分辨率与 细节的矛盾“瞎子摸象”难题视觉模型处理 224 像素够看
3、清景,但在办公 A4 纸上,10pt 的字与细标在降采样中被 抹平字缺失字缺失 =语义崩塌语义崩塌痛点二:算力黑洞Token 的平方级爆炸分辨率线性提升,Token 数量呈指数增。传统的 Transformer 架构应对清 档时,推理延迟变得法忍受。端到端解析模型端到端解析模型长链路崩溃串联模型过多,前级 1%1%的偏离会导致后级 100%100%的失败。误差累积缺乏端到端反馈机制,系统复杂度呈指数指数级级上升,后期维护极其艰难。不可控风险模块间的“盒盒”交互使得深层故障 排查成为运维员的噩梦。痛点三:俄罗斯套娃式传统架构从Monkey 到MonkeyOCRPART 02破局点:TextMon
4、key“既要看得清,又要算得快”多模态大模型架构核心定义多模态大模型是一种能同时处理和整合多种 感知数据(如文本、图像、音频等)以产生更精 准输出的AI架构。局限性与突破现有的LLM局限于单一文本模态信息的处理,而 缺乏真正任意模态的理解。多模态大模型在LLM 的帮助下做到了理解不同模 态。多模态大模型训练第一阶段:视觉模块预训练通过量图对训练视觉编码模块第二阶段:架构连接在视觉模块与LLM之间插可训练的中间层构成多模态模型第三阶段:模态对齐训练通过在规模的跨模态数据集上对多模态模型进微调第四阶段:整体训练优化更新全量参数,实现各模块对及任务扩充优化Monkey-多粒度可控信息生成及切分引引滑
5、动窗滑动窗 +适应重构适应重构 使用与LMM分辨率一致的滑滑动动窗窗口口将图像划分为局部区域 在编码器中利用 LoRA 并行处理不同局部图像块 原始图像调整尺寸作为全局信全局信息息,由重采样器统一处理Monkey 效果定位定位、推理推理与与检检索能力索能力Monkey能够从高分辨率的图表图像中进行定位和推理,以及从文本密集的文档图像中检索答案。Monkey 局限性现有现有案局限性案局限性 直接切分可能导致字被割裂割裂,难以捕捉跨Patch上下 语模型度限制阻碍了输输分辨率分辨率的进步扩展使用滑窗思想滑窗的思想就类Swin Transformer的 l层的每个Window Attention,是
6、否可以利l+1层的Cyclic Shift(循环移位)的思想建跨窗信息交互?高效工程实现在此基础上,我们保持了Monkey训练效的特性,将这种 Cyclic Shift(循环移位)的滑窗注意机制Lora的式 引到了Encoder中TextMonkey:循环移位(Cyclic Shift)机制相似Token发现每个图的token都有个到个类似的Token,图 特征中存在冗余TextMonkey:减少冗余特征0.70.80.9448103(42.2%)68(26.7%)20(7.8%)896708(69.1%)571(55.8%)346(33.8%)13341773(76.6%)1373(59.6