1、信息抽取统一建模技术及应用戴岱 百度NLP-资深研发工程师|01信息抽取技术在业务中的定义、问题和挑战02封闭式信息抽取统一建模技术03开放式信息抽取统一建模技术04开源通用信息抽取技术及工具目录 CONTENT|信息抽取技术在业务中的定义、问题和挑战01|信息抽取*:从无结构内容中抽取有用的结构化信息|情感倾向观点描述前所未见华语超级大片场面燃爆了战狼2实体关系事件信息主题标签娱乐影视泛标签华语大片首映要素标签战狼2吴京篇章主体PDF/Word网页HTML扫描图片战狼2吴京导演主演上映时间7月27日晚8点01分战狼29741万59.1%名称票房上座率7月27日晚8点01分,由吴京自导自演的电
2、影战狼2正式全国上映,4小时内横扫9741万票房,上座率高达59.1%,彻底点燃了暑期档。一起被点燃的还有观众的情绪和好口碑。在超百万观众看片后,前所未见的华语超级大片,场面燃爆了成为影评关键词。战狼2上映首日票房破亿纯文本图像特征布局特征跨模态无结构内容信息抽取技术多维度结构化信息主体识别评论抽取标签计算情感分类实体识别关系抽取事件抽取是非分类MONETTransformerTextPromptBounding Box通用信息抽取*与学术界侠义上的定义不同,在实际业务场景中,我们将从内容中抽取信息的任务都定义为信息抽取信息抽取是百度业务中不可或缺的核心技术|Query新闻评论票据病历财报案宗
3、对话智能检索辅助决策消费建议内容推荐自动审校自动录入知识构建客户分析信息抽取技术搜索搜索智能化智慧医疗辅助诊断、病案质控、数据治理电商消费决策、属性补全、商品推荐智慧金融单据录入、审核比对、风险评估智慧法律类案检索、法条推荐、辅助判决客服工单分析、信息录入、案例推荐C端B端信息流内容推荐业务的循证要求,使信息抽取成为不可或缺的一环信息抽取面临任务多、领域多、跨模态、缺数据等挑战|标签计算情感分类主体识别观点抽取实体识别 关系抽取任务复杂多样互联网医疗金融政务法律电商面向多个领域语言视觉融合文档数据标注困难网页图文视频任务复杂领域专业数据私密传统方法单独建模各类信息抽取任务,耗时耗力|分类任务标
4、注任务CLSW1W2W3预训练模型LabelW4SEPCLSW1W2W3预训练模型OW4SEPBIESO标签分类关键词抽取情感倾向问答相关性实体识别阅读理解关系抽取对话理解粒度:句子级/实体级任务:情感/观点/情绪领域:电商/新闻/舆情多模:语音/视频每个场景均需要单独定制p 数据专员标注上千数据p 深度学习专家设计和调优模型p 迭代周期长达几周到几月通用、统一的建模方式有助于降低模型研发成本|通用性差不同任务需要单独设计模型 任务统一单模型支持多种IE任务任务层设计大量数据标注训练调优交付使用少量数据适配交付使用项目3任务层设计大量数据标注训练调优交付使用项目2任务层设计大量数据标注训练调优
5、交付使用项目1项目1交付使用项目2交付使用项目3 迁移性差跨领域难以相互迁移和增强 开放领域优秀的跨领域迁移能力通用信息抽取多任务统一建模传统单任务建模实体关系事件情感多任务训练跨领域数据互联网医疗金融法律通用信息抽取依托于文心ERNIE大模型技术|2019.72019.3ERNIE 2.0全球首次突破90分大关超越人类平均得分GLUE 摘冠ERNIE-ViLERNIE-Doc5项跨模态任务取得最好效果VCR 榜单冠军13项中英文长文本任务取得最好效果2019.12ERNIE-M2021.12020.12理解96种语言在XTREME 榜单夺冠2021.7ERNIE 3.0首个知识增强百亿参数大
6、模型同时具备语言理解与生成能力SuperGLUE 摘冠登顶全球榜首超越人类0.8个百分点2021.12全球首个知识增强千亿大模型鹏城-百度文心ERNIE-ViLG全球最大中文跨模态生成模型ERNIE 1.0中文效果超越BERT国内首个开源预训练模型2020.7中英文16个公开数据集全面领先同时提升单/跨模态任务效果VQA/aNLI 上取得最好效果ERNIE-UNIMO2022.3ERNIE-GeoL2022.5任务知识增强的千亿大模型ERNIE 3.0 ZeusERNIE-SAT地理-语言跨模态大模型语音-语言跨模态大模型基于知识增强的理解与生成大模型ERNIE3.0|持续学习各行各业应用Em