1、Leyan Confidential乐言科技乐言科技Leyan CONFIDENTIAL1多策略智能问答企业计算的AI利器CCFTFLeyan Confidential乐言科技乐言科技目录1基础2算法3工程CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL基础3CCFTF乐言科技乐言科技LEYAN CONFIDENTIALQA基础 范式419901990年年基于信息检索的问答。20200000年年基于社区的问答20201212年年基于知识图谱的搜索引擎计算智能感知智能20202020年年基于多引擎的问答202011 11年年问答系统成为下一代搜索引擎的基本形态CCFTF乐言科技乐言
2、科技LEYAN CONFIDENTIALQA基础 数据CCFTF乐言科技乐言科技LEYAN CONFIDENTIALQA基础 技术6KBQA:基于知识库的问答知识图谱IRQA:基于信息检索的问答问答对MRC:基于阅读理解的回答文本CCFTF乐言科技乐言科技LEYAN CONFIDENTIALIRQA7在问答对中对用户查询进行检索,返回语义最相关的FAQ对对应的答案。CCFTF乐言科技乐言科技LEYAN CONFIDENTIALIRQA与传统IR的对比8通常输入的是关键词检索对象为网页(包含title,url,body)返回的是网页列表CCFTF乐言科技乐言科技LEYAN CONFIDENTIA
3、L9检索对象为问答对查询通常为自然语言返回自然语言形式的答案IRQA与传统IR的对比CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL10IRQA三阶段尽可能的召回相关的FAQ对要求速度快,重点考虑recall粗排阶段精排阶段用户问题与FAQ对之间的语义相似度排序(通常为相对顺序)要求较准确,重点考虑precision匹配阶段问答对比搜索的特殊性,需要作出直接回复建模用户问题与FAQ之间的语义匹配度,并做是否回复判断本质上是相关性排序与文本匹配问题CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL 粗排 传统ranking算法 精排 Learning to rank算法
4、 匹配 深度匹配算法Leyan CONFIDENTIAL11IRQA的技术选型CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL Query-dependent Boolean model,extended Boolean model,etc.Vector space model,latent semantic indexing(LSI),etc.BM25 model,statistical language model,etc.Span based model,distance aggregation model,etc Query-independent PageRank,Tr
5、ustRank,BrowseRank,etc.12传统Ranking算法CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL Pointwise Pairwise Listwise13Learning To RankCCFTF乐言科技乐言科技LEYAN CONFIDENTIALLeyan CONFIDENTIAL14更多L2R知识参考:Liu,Tie-Yan.Learning to rank for information retrieval.”Li,Hang.Learning to rank for information retrieval and natural languag
6、e processing.Learning To Rank算法集合CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL Pointwise:相关程度(问题与文档相关性)两类:相关vs不相关 有序多类别:完美优秀好过得去槽糕 Pairwise:相对偏好(对于问题,文档对的相关性偏序)文档1比文档2要更相关 Listwise:完整的顺序(给定问题,文档序列偏序)文档按相关性的顺序应为1 2 15标注数据准备CCFTF乐言科技乐言科技LEYAN CONFIDENTIAL Mean Reciprocal Rank(MRR)MRR=|16=11=1=12=0.5relevantirreleva