1、研发领域知识管理与智能问答牛舒怡蚂蚁集团 算法工程师目录CONTENTS领域知识问答的挑战与破局0102领域知识注入:基于图谱的知识体系构建复杂问题解决:基于多重搜索的方案构建030405落地实践与效能提升未来规划与展望PART 01领域知识问答的挑战与破局场景介绍转人工朴素RAG框架探索信息更新外挂知识库方案,知识库更新时线上服务也可及时更新业务落地成本低业务落地可用统一的知识库接入方案,无需特殊化训练先检索后生成RAG框架朴素RAG框架优化检索优化Chunking结构化分割、检索-生成解耦、交叉编码器模型重排、路径信息加入生成优化意图识别、文档优先级加入、来源文档置信度生成优化后召回率80
2、%+,生成准确率60%+RAG框架痛点拆解:多源零碎知识vs复杂用户需求01 在朴素RAG方案中,由于chunk的限制长度,对于一些全局性问题很难回答全面01数据洞察传统RAG方案在跨文档场景下召回率不足60%,揭示知识管理中检索逻辑单一、缺乏深度理解的核心痛点。02需求趋势用户需求日益复杂,单一文档难以满足,60%以上问题需结合多文档甚至代码逻辑解决,凸显跨文档推理的重要性。现状反思知识资产无组织状态,检索效率低下,难以适应现代研发环境中对知识深度理解和快速响应的需求。03破局方向:知识体系化+检索智能化LightRAG框架轻量化GraphRAG方案,优化知识图谱构建与检索过程,实现从“被动
3、检索”到“主动推理”的转变,解决语义对齐与跨文档推理难题。DeepSearch技术迭代式搜索框架,支持多轮检索与工具调用,跨越语义鸿沟,实现推理型问题的智能解答,提升用户问题解决的准确性和效率。知识体系化 从“文档管理”转向“知识图谱化”,构建动态实体与关系标签 实现知识资产的结构化与语义关联,降低维护成本,提升知识检索效率。基于语义图谱进一步提炼检索智能化 引入双层检索机制,Local检索快速定位关键词,Global检索扩展语义关联,结合Hybrid模式动态权重融合,提升复杂场景下的问题解决率。引入DeepSearch技术,进行迭代式智能化搜索,提升推理场景下的准确率PART 02领域知识注
4、入:基于图谱的知识体系构建优化1:业务知识图谱的增量式构建动态实体抽取融合领域术语库与LLM,实现混合实体识别技术,确保知识图谱的实时性和准确性。关系标签自动抽取基于用户行为反馈优化标签权重,支持增量更新实体子图匹配Local检索策略,快速定位用户Query关键词相关的实体子图,提高响应速度。语义扩展检索Global检索利用关系标签驱动,解决跨文档关联问题,召回率跃升至68%。知识图谱的构建技术流程研发图谱示例优化2:图谱多层检索机制设计01local检索优化通过local检索快速定位相关实体子图,提升召回率。02global检索增强利用关系标签驱动的语义扩展,解决跨文档关联问题。03混合模式
5、应用结合本地与全局检索以及原始RAG检索的优势。04效果显著提升线上问题的检索召回率提升至95%+图谱多层检索机制流程图谱应用1-检索问答示例 在图谱RAG方案中,全局问题及领域定义性问题可以很好解决;召回率达95%以上图谱应用2-领域编码规则抽取图谱应用2-领域编码规则抽取PART 03复杂问题解决:基于智能搜索的方案构建优化1:结合迭代式搜索框架的检索Agent多轮检索策略解构曾经的单query检索,结合每一轮的检索结构由模型抉择是否进行下一轮检索工具调用机制为agent提供多个工具(如代码检索、文档检索、图谱检索等),提升复杂场景下的问题解决效率。智能多路检索将图谱的local检索、gl
6、obal检索和传统的chunk检索均作为工具提供给大模型,模型由当前问题自由推理最佳搜索路径。检索架构参考优化2:结合深度定制工具的领域助手agentquery深度理解通过让模型自主决定调用哪些工具解决问题。上下文感知重写利用上下文信息进行查询重写,提升查询与知识标签的匹配度,增强理解能力。工具调用机制引入工具调用机制,支持更复杂的操作流程,提高解决问题的能力。提升匹配效率利用领域图谱进行改写;有效解决口语化表达与专业文档之间的匹配难题,显著提升匹配效率和准确性。示例demo:结合定制化工具的领域助手agent预先定义好数据分析工具【如低效应用分析】目前