1、Medical Natural Language Processing医学自然语言处理解放军总医院医疗大数据中心2019年7月4日CHIMA 2019医学自然语言处理的基本任务目录1医学自然语言处理的基本技术2医学自然语言处理的典型问题3我院的实践与总结4CHIMA 2019主要用途、基本任务01医学自然语言处理的基本任务CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本任务 主要用途 病历文本数据挖掘 医疗知识库构建 病历检索 NLP技术 电子病历 医学文献 临床指南 健康档案 结构化、标准化数据分析 统计分析 机器学习 疾病诊断模式 药物治疗模式 预后评价模式 可
2、分析的医疗数据 标准化的电子病历 医学知识库 整合后的健康档案 临床应用 辅助诊疗系统CDSS 药物安全性检测 医疗政策决策支持 相似病历检索应用实践CHIMA 2019中国人民解放军总医院医疗大数据中心例:可见多发结节影,大小约1.16X0.98厘米例:在“肌力4+级”中“+”表示“强”“头MRI+MRA示”中“+”表示“和”医学自然语言处理的基本任务例:胃胀反酸、泛酸、返酸例:“无意识障碍”无|意识|障碍无|意识障碍例:“细菌性痢疾”细菌/n 性/ng 痢疾/n名词名词性语素例:可见多发结节影,大小约1.16X0.98厘米010603040502语义分析06分词01词性标注02实体识别03
3、实体关系抽取05实体标准化04CHIMA 2019分词、词性标注、实体识别、实体关系抽取、语义分析02医学自然语言处理的基本技术CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 分词 分词是将一句话切分成一个个单词的过程 分词工具 结巴(jieba)分词工具、NLPIR汉语分词系统、IKAnalyzer开源分词软件 关键技术 基于词典的分词方法(机械分词法)按照一定策略,将待分析的汉字串与一个充分大的机器字典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功逆向最大匹配法正向最大匹配法双向匹配法 基于机器学习的分词方法例:“无意识障碍”无意识|障碍()无|意
4、识障碍()CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 基于词典的分词方法设词典中词语长度的最大值为M开始从文档末尾开始扫描,取最末端的M个字符作为匹配字段,查找字典匹配成功记录分词结果,对剩余的字符串继续重复以上步骤是否将字符串长度减少1剩余字串的长度为零是输出例:“南京市长江大桥”1.设最长词为52.在词典中匹配“市长江大桥”3.匹配失败,去掉最前面一个字“市”4.匹配“长江大桥”,匹配成功5.在词典中剩余字符“南京市”,匹配成功6.输出结果:南京市/长江大桥CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 词性标注 在给
5、定句子中判定每个词的词性加以标注,如将词分为名词、形容词、动词等 关键技术 基于词典的标注方法先对语句进行分词,然后从字典中查找每个词语的词性,对其进行标注 基于规则的标注方法简单处理,得到初标注结果建立转换规则,修正错误得到标注结果例:细菌性痢疾细菌/n 性/ng 痢疾/n胆囊壁明显增厚胆囊/n 壁/ng 明显/a 增/v 厚/a 名词名词性语素例:1.初标注:“他/r做/v了/u一/m个/q报告/v”2.转换规则:激活环境:该词左边第一个紧邻词的词性是量词(q),左边第二个词的词性是数词(m)改写规则:将该词的词性从动词(v)改为名词(n)3.得到标注结果:“他/r做/v了/u一/m个/q
6、报告/n”CHIMA 2019中国人民解放军总医院医疗大数据中心医学自然语言处理的基本技术 实体识别 医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、症状、检查、手术操作、器官部位等 关键技术 基于规则的方法 正则法例:清扫第1组,2组,3组淋巴结正则表达式:“%/d+组淋巴结”1组淋巴结、2组淋巴结、3组淋巴结 基于机器学习的方法 词向量表示将自然语言处理问题转化为机器学习问题,首先在于采用一种词表示方法将文本中的单词和符号数学化,即用一个数学向量表示。常用的词向量表示方法:独热码表示、Word2vec算法例:“乙肝”表示为 0 0 0 1 0 0 0 0 0