1、GeoScene 新一代地理编码解决方案及应用探索陈竞男易智瑞信息技术有限公司 产品咨询推广部地理编码服务器产品应用实践GeoScene地理编码服务器介绍目录地理编码需求背景020301内容总结04地理编码(Geocoding)是指,将地址、地名或坐标对等位置描述转换为地球表面的某位置的过程。地理编码是将地理坐标(例如经纬度)赋予街道地址及其他点位和地理特征的过程(来自维基百科)。地理编码定义*图片来源于网络1 地理编码需求背景上世纪90年代起,欧美等发达国家均已纷纷建立了全国性的标准地址数据库,并与人口普查、社会保障、物业财产等信息相关联,为社会经济发展起到了重要作用。我国由于地理人文环境的
2、差异,以及历史沿革带来的各种复杂性,尚未建立覆盖全国的权威可靠的标准地址库。公安部指导各城市开展的“一标三实”基础信息采集工作,将规范标准地址、人口、房屋、单位的详细情况录入信息系统,实现信息共享互通,是推动公安工作信息化建设的重要举措。*图片来源于网络地址库建设需求空间位置信息是推动经济社会数字化转型过程中一个重要的信息维度。在城市工商、税务、规划、公安、银行等职能单位拥有的业务数据中,地址通常以文本形式存在,如何将这些文本描述的空间位置信息与精确的空间位置进行匹配,进而提供数据分析、定位以及可视化功能,是城市数字化转型发展的现实需要。地址匹配需求地址信息来源多样,标准不统一,难以进行关联共
3、享,数据利用率较低针对存量地址数据,亟需提供地址数据清洗、地址规范化等治理能力,使得地址更好地支撑业务应用。地址来源多样地名地址数据规划公安统计稽查民政住建工商地税地域特点明显缺乏统一标准规范表达方式差异一地多名空间数据缺乏地址信息不全地址利用率低地址治理需求2 GeoScene 地理编码服务器介绍地址数据地址标准化治理地址入库与管理标准地址库(Elasticsearch)(Geocoding Server)GeoScene ProGeoScene Enterprise 业务应用GeoScene地理编码服务器(GeoScene Geocoding Server)是专门针对中文地址数据所打造的一
4、套地址标准化与地址匹配解决方案,可支撑从地址治理、地址库建设与维护、到地址查询匹配的完整流程,旨在帮助用户构建属于自己的地址库和地理编码服务,实现地址数据的有效利用。GeoScene地理编码服务器产品定位地理编码工具箱地理编码服务桌面端服务器端核心功能模块划分:基于深度学习的地址治理地址库建设与维护地理编码服务GeoScene 地理编码产品组成 地址治理地址治理模块模块地址抽取 地址库管理地址库管理模块模块 地理编码服地理编码服务模块务模块融合NLP和深度学习的地址治理方案地址分类地址补全纠错API for Python地址入库地址追加地址删除地理编码服务发布单个/批量地址匹配逆地理编码地址输
5、入提示GeoScene Geocoding ServerGeoScene地理编码功能模块划分模型训练样本库标注命名实体识别地址结构化地址片段异常地址判断有异常标准地址文本分类无异常异常地址地址补全纠错序列到序列采用深度学习和自然语言处理(NLP)等领域的前沿技术,来辅助解决中文地址标准化治理问题地址治理流程地址治理工具集工具类型工具用途地址抽取(地址结构化)可以从自然文本中抽取地址实体;同时也可以实现将地址文本按照省、市、县、乡等不同级别进行拆分,实现结构化解析。地址分类用户现存的地址数据可能存在多种不规范情形,如行政区划缺失、片段冗余、片段缺失甚至非地址等异常,该功能可辅助完成地址异常类型的
6、判定。地址补全纠错用于应对中文地址描述不规范的情况,可以补全行政区划、纠正错误描述,辅助地址文本的标准化。地址治理模块地址抽取(可选)命名实体识别文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。应用场景:情感分析(积极、消极、中性)主题分类(金融、体育、军事、社会)问答任务(是、否)意图识别(天气查询、歌曲搜索、随机闲聊)地址场景:判断地址异常类别地址治理涉及的自然语言处理(NLP)术语*图片来源于网络用户评论分析中应用文本分类序列到序列通常是指序列到序列模型,用于完成序列转换,应用场景包括机器翻译、文本摘要提取、机器问答、语音识别等。地址场景:地址补全纠错地