《崔程_飞桨PaddleOCR最新技术与产业实践.pdf》由会员分享,可在线阅读,更多相关《崔程_飞桨PaddleOCR最新技术与产业实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、百度资深工程师 崔程Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.OCR的背景和全新变化PaddleOCR多模态文档解析技术突破PaddleOCR最佳实践PaddleOCR发展历程和展望重新定义重新定义OCROCR:从单一:从单一“文字识别文字识别”到复杂到复杂“文档解析文档解析”OCR 1.0(文字识别 Text Recognition)OCR 2.0(文档解析 Document Parsing)LIFETIMEWARRANTYANDLIFETIMEOILCHANGES、062212、ATL4654、coLon
2、、FLORIDA、Comtrpl、052212、Daytoua、TOYOTA.com任务定位:解决“看清”问题(视觉感知)输出形态:平铺直叙,纯文本字符串序列价值重塑:今天的 OCR 不再只是单纯的视觉提字,而是为大模型生产高质量的“结构化数据资产”任务定位:解决“看懂”问题(视觉理解)输出形态:元素层次分明、结构化markdown/json从大模型训练到大模型应用:高质量数据需求急迫从大模型训练到大模型应用:高质量数据需求急迫大模型训练:扩充高质量语料枯竭的优质网页数据海量非结构化数据PDF、券商研报、古籍文献等大模型应用爆发,结构化知识需求激增办公、客服、医疗、金融等行业深度应用大量非结构
3、化数据-结构化数据需求爆发结构化数据处理引擎可直接被大模型调用的高质量结构化数据大模型驱动下的爆发:大模型驱动下的爆发:20252025年年OCROCR呈现呈现“百花齐放百花齐放”态势态势主流大模型厂商密集发布OCR模型OCR模型占据HuggingFace模型趋势榜前三*2025年10月下旬数据突破突破OCROCR规模化瓶颈,架构创新与数据飞轮实现轻灵快落地规模化瓶颈,架构创新与数据飞轮实现轻灵快落地行业痛点:工业级可规模化方案欠缺高精度低算力低成本OCR专精模型如dots.ocr/ds-ocr,精度有限泛化性较弱,在公开评测集精度低于90%闭源通用大模型如Gimini-2.5-pro,单页解
4、析成本0.4元,无法支持海量数据开源通用大模型如Qwen3-VL-235B,应用门槛高,无法部署在消费级显卡上解决思路:两阶段架构+数据飞轮 模型架构创新感知+理解的两阶段架构,实现高效粗粒度定位和细粒度识别,大幅降低模型参数并保障了OCR精度 数据极致提质扩量构建大小模型协同的自动化数据飞轮,初标+精炼方式实现海量高信息熵数据的低成本、高精度生产感知理解粗粒度定位细粒度识别现有文档解析架构局限:现有文档解析架构局限:PipelinePipeline架构与架构与VLMVLM端到端架构端到端架构 优点:模型解耦,并行开发,可解释性高 缺点:串联复杂,错误累积传播,效果上限低 优点:单模型部署简单
5、,能力的可拓展性上限高 缺点:模型参数大,计算开销大,坐标偏移/幻觉Pipeline 架构(流水线)VLM端到端架构(单阶段)多模型串联,分而治之视觉语义融合,单个大模型模型架构创新:模拟人脑阅读的选择性视觉编码模型架构创新:模拟人脑阅读的选择性视觉编码人脑在处理文档时,会自动忽略空白背景,仅注意文本图像等区域,即先感知,后理解。平均超过50%以上冗余编码,造成算力浪费基于OminiDocBench评测数统计模型架构创新:两阶段模型架构,降低冗余参数量模型架构创新:两阶段模型架构,降低冗余参数量感知:快速锁定文档中的文字、表格、图表等核心元素的空间坐标与阅读顺序,不进行深度解析。理解:将锁定的
6、元素输入多模态大模型,完成文字转录、表格还原及公式推导。仅处理有效区域,大幅降低冗余,低成本全像素处理,冗余编码造成算力浪费感知模块理解模块两阶段架构端到端VLM架构模型架构创新:两阶段模型架构,降低冗余参数量模型架构创新:两阶段模型架构,降低冗余参数量两阶段模型架构设计两阶段模型架构设计第一阶段:提出有效区域注意力(VRFM)模块,53M轻量级模型,解决文档元素区域检测和阅读顺序预测。第二阶段:通过Na-ViT+轻量级ERNIE-4.5-0.3B,结合自定义精简Instruction,完成文字、表格、公式、图表等元素的高精度识别。自动化海量数据生产,大小模型协同驱动精度跃迁自动化海量数据生产