您的当前位置: 首页 > 新闻中心 > 行业知识 > 什么是OCR?OCR的技术特点、发展历程及应用场景介绍

什么是OCR?OCR的技术特点、发展历程及应用场景介绍

什么是OCR

OCR是Optical Character Recognition的缩写,中文译为光学字符识别,它主要用来提取文本图像文件上的文字内容,通常在获取文字内容之前先对图像文件进行一系列分析操作。它的应用领域十分广泛,如教育、交通、医疗,是工业界和学术界的重点研究目标之一。

随着近几年智能手机市场的繁荣发展,很多厂商将智能手机的高像素摄像头和OCR联合,衍生出基于智能手机平台的相关OCR软件的发展。开发手机OCR应用的厂商主要分为两种形式:一种是专业的OCR技术提供商,诸如ABBYYFinReader、汉王、尚书七号等;另一种是专业的技术服务提供商,它们会选择购买OCR技术提供商提供的技术或者采用开源的OCR引擎,如Tesseract。

OCR技术的特点

提高效率:OCR技术相比传统的人工方式,能够更快实现信息录入。

降低成本:以机器代替人工,能够节省人力成本的开销。

适用性强:OCR技术能够实现多场景和多语言的识别,还能通过提取图像中的文本分析其所包含的语义信息,为机器理解图像提供高层语义线索。

OCR技术的特点

OCR技术的特点

OCR技术发展历程

20世纪30年代末,德国籍研究员Taushek首次将字符模板匹配运用到字符识别过程中,并因此获得了一项OCR相关专利,自此迈进了自动获取图片文字的时代。此后不久,美国籍研究员Handel提出了借助OCR技术对文本资料进行文字提取的设想。

20世纪六十年代OCR技术发展进入到应用阶段,学者开始将OCR技术理论运用到实际应用中,诞生了第一批OCR系统,最典型的代表系统是Farrington3010和Farrington3010,它们仅仅能识别一些简单的字符。在1966年,美国IBM公司的两个研究员完成了对1000个印刷体中文字符的识别过程。

20世纪七十年代初,日本籍研究人员将汉字的识别想法提上日程,于1977年由东芝综合研究所研发的能识别2000个印刷体汉字识别系统就是其代表性作品。当时,另一个最典型的代表是一个邮政编码自动分拣系统,即IBM1287,它对书写整齐规整的手写体字符识别结果偏好。

20世纪八九十年代,随着个人电脑的发展和广泛应用和平台式扫描设备的性能逐渐提升和日渐成熟,OCR应用的第一个高潮出现。此时著名的应用事件是谷歌图书馆借助OCR技术实现了批量化的高速扫描。

21世纪开始将自然场景中的文字识别作为新课题来研究。2014年8月,微软亚洲研究院在ICPR(国际模式识别大会)上公布了在自然场景下基于标准数据集(ICDAR-2013测试集)的识别,最终识别结果表明其达到了92.1%的准确率和92.3%的召回率。伴随着云计算、大数据的迅猛发展,通过手机摄像头进行文字资料采集,将采集后形成的图像传递给后端实时处理,前端和后台的完美结合充分体现了OCR的应用价值。

我国OCR技术发展历程:

第一阶段是从20世纪70年代末期到20世纪80年代末期,重在完成字符识别相关算法和方案的摸索。

第二阶段是从20世纪90年代初期开始,OCR由实验室走向市场,初步实用,此时出现以清华大学为代表的高校单位研发的印刷体文字识别系统。

第三阶段即现在,主要针对识别系统的性能提升问题进行研究,其中包括准确率和兼容性的提高。

OCR技术的应用场景举例

丰巢快递柜的实名验证:丰巢快递通过使用腾讯云身份证的OCR技术,对身份证的识别准确率达99%,能够实现用户的自助实名认证,提高用户寄取快递的效率。

顺丰快递单信息自主识别:快递单文字转写一直是快递行业的重要需求。顺丰使用了手写体识别技术后,快递的收寄件人信息将被快速纪录,能够大大提高效率并且节省人力。数据显示,顺丰使用OCR产品后,每年节约的相关人力成本约有50%。

顺丰基干OCR技术进行快递单识别

宁波银行票据录入:银行业有大量金融票据的分类和录入需求;宁波银行使用的OCR识别系统能够支持十余种票据的检测分类、结构化识别及信息录入,且字迹模糊、印章干扰等问题也在不断优化,目前识别字段的准确率在90%以上。

宁波银行票据录入

宁波银行票据录入

搜狗广告图片文本审核:许多不法分子会在图片、视频中镶嵌一些非法信息和广告,传统方法是以肉眼进行审查,但是随着网络技术发展,信息也开始海量化增加;OCR能够帮助搜狗自动识别海量图片的文字内容,降低客户业务的违规风险。

本文由@AG 发布于三个皮匠报告网站,未经授权禁止转载

更多行业知识,敬请关注三个皮匠报告行业知识栏目。

参考资料

《腾讯云:2020智能文字识别OCR能力评测与应用白皮书(35页).pdf》

推荐阅读

《智慧芽:2021人脸识别行业白皮书(69页).pdf》

本文由作者AG发布,版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

相关报告

巨量算数:2020汽车后市场「直播+电商」消费趋势报告(37页).pdf
巨量算数:2020汽车后市场「直播+电商」消费趋势报告(37页).pdf

直播+电商消费趋势报告 汽车后市场 2020 随着国内汽车保有量已达2.7亿,汽车后市场的市场规模预计已超过万亿;同时短视频、直播、内容带货 成为目前企业市场增长的热点,汽车后市场企业对于车主人群在媒体内容、直播电商的消费行为及趋势的关注度空前高涨。 一线(北上广深),新一线(成都、重庆、杭州、武汉、西安、

中国移动:5G室内融合定位白皮书(50页).pdf
中国移动:5G室内融合定位白皮书(50页).pdf

5G 室内融合定位白皮书 5G 室内融合定位白皮书5G 室内融合定位白皮书 2020 年 10 月2020 年 10 月 5G 室内融合定位白皮书 编写单位编写单位 中兴通讯股份有限公司 通信有限公司研究院 清研讯科(北京)科技有限公司 蓝色创源(北京)科技有限公司 紫光展锐(上海)科技有限公司 北京百度网

【研报】2020年半导体行业分析研究报告-RCEP协定对中国先进制造业的影响分析(37页).pdf
【研报】2020年半导体行业分析研究报告-RCEP协定对中国先进制造业的影响分析(37页).pdf

Table_Info4 Nomura | 半导体 2020.11.28 Table_Info4 请务必阅读报告正文后各项声明请务必阅读报告正文后各项声明 3 正文目录正文目录 RCEP 释放政策红利,生效仍需时日释放政策红利,生效仍需时日 .6 RCEP 提升东亚商品全球竞争力提升东亚商品全球竞争力 .6

美国消费者金融保护局(CFPB):消费者如何平衡储蓄和债务(英文版)(19页).pdf
美国消费者金融保护局(CFPB):消费者如何平衡储蓄和债务(英文版)(19页).pdf

消费者面临的许多金融挑战之一是如何在拥有一个储蓄缓冲以提供金融安全的目标与限制他们持有的债务数量的目标之间取得平衡。事实上,大多数美国消费者同时持有储蓄和债务。人们负债的原因很多,持有不同类型债务的成本相差很大。然而,在同时持有储蓄和债务的情况下,消费者面临着一个选择:要偿还多少债务,还是要保留多少储蓄。即

美国消费者金融保护局(CFPB):抵押贷款发放前变化情况报告(英文版)(33页).pdf
美国消费者金融保护局(CFPB):抵押贷款发放前变化情况报告(英文版)(33页).pdf

抵押贷款的条款和成本在启动过程中可以改变。这一事实早已为人们所认识。例如,联邦披露法要求在消费者申请抵押贷款时和完成抵押贷款之前向他们提供披露表格。然而,人们对抵押贷款发放过程中变化的本质知之甚少。抵押贷款如何变化、变化幅度有多大以及何时变化都很重要,因为消费者依赖披露表格来比较贷款机构和服务提供商,了解抵

美国消费者金融保护局(CFPB):疫情影响下美国住房不安全问题研究报告(英文版)(21页).pdf
美国消费者金融保护局(CFPB):疫情影响下美国住房不安全问题研究报告(英文版)(21页).pdf

      到2020年,已经拖欠至少三个月抵押贷款的家庭增加了250%,超过200万户,目前的水平是2010年大衰退最严重时期以来从未见过的。据估计,这些家庭总共欠下了近900亿美元的递延本金、利息、税收和保险支付。与此同时,我们正面临着租金危机,超过800万户租房家庭拖欠租

美国消费者金融保护局(CFPB):大学信用卡协议年度报告(英文版)(14页).pdf
美国消费者金融保护局(CFPB):大学信用卡协议年度报告(英文版)(14页).pdf

信用卡问责,责任,和信息披露行为要求消费者金融保护局提交给国会,并向公众开放年度报告,列出信息报局关于信用卡发卡机构和高等教育机构之间签署的协议或某些组织隶属于这样的机构与发行信用卡。本报告将这些协议称为“大学信用卡协议”或简称为“协议”。附属组织包括与高等教育机构有关联的兄弟会、姐妹会、校友会或基金会。这

美国消费者金融保护局(CFPB):2020年财务知识年度报告(英文版)(35页).pdf
美国消费者金融保护局(CFPB):2020年财务知识年度报告(英文版)(35页).pdf

多德-弗兰克华尔街改革和消费者保护法要求消费者金融保护局(Bureau)局长向国会提交一份年度报告,介绍该局提高消费者金融素养的活动和策略。该局很高兴提交这第八份财务素养年度2F报告。该报告涵盖2020财年(FY20),从2019年10月至2020年9月。该局在其广泛的法定授权范围内,确定了帮助美国人加强金

客服
商务合作
小程序
服务号
折叠