当前位置:首页 > 报告详情

孙亚博_办公领域多模态大模型的探索与实践.pdf

上传人: 蓝*** 编号:1270096 2026-06-20 43页 8.10MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **办公多模态大模型实践**:金山办公孙亚博团队构建智能化办公基座,突破办公“深水区”痛点,打造TextMonkey滑窗机制与MonkeyOCR文档解析系统。 2. **核心技术创新**: - TextMonkey采用循环移位机制减少冗余特征,解决高分辨率文档“瞎子摸象”问题,Token数量指数增长难题。 - MonkeyOCR的SRR范式(结构-识别-关联)实现端到端解析,9种文档类型平均性能超MinerU 5.1%,推理速度0.84页/秒。 3. **业务落地效果**: - 图片翻译支持52种语言互翻,自建评测集上效果超竞品,端到端耗时仅2秒。 - Monkey系列模型性能位列开源榜首,CVPR'24高被引论文,被图灵奖团队作为基准算法。
**办公AI如何突破?** **多模态模型实战?** **OCR技术新突破?**
客服
商务合作
小程序
服务号
折叠