《A3--程逸骏--从“黑盒”到“白盒”:基于索引树与大模型智能体的企业级知识深度检索实践.pdf》由会员分享,可在线阅读,更多相关《A3--程逸骏--从“黑盒”到“白盒”:基于索引树与大模型智能体的企业级知识深度检索实践.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、索引树工程助力知识检索升级程逸骏 中兴通讯,有线研究院AI算法工程师程逸骏中兴通讯,有线研究院AI算法工程师毕业于华中科技大学,获博士学位,中兴通讯有线研究院 AI 研发提效技术负责人。近两年来深耕 AI 技术在软件研发流程的落地应用,重点聚焦语料增强、模型增训与精调领域的提效提质突破。主导公司内部多项 AI 研发提效核心课题,实践成果已成功横向推广至多个业务单位并落地见效。01020304问题提出解决思路实践情况效果评价05未来展望问题提出1、知识检索成为知识工程提效落地堵点之一 研发提效当前只能依赖RAG实现私域知识的注入,因此知识检索的准确率,扩展性,易用性成为知识工程落地的关键【背景】
2、【背景】【有线知识规范发布有线知识规范发布】基于中兴有线院顶层知识规范,构建了一套可组装的知识架构,用于指导知识工程建设,提供各种“知识”(RAG)供大模型实现各类研发提效任务。【传统传统workflowworkflow应用应用agentagent化趋势化趋势】基于当前“react-agent”智能体产品落地(open-claw,claudecode,cursor)趋势,25年的workflow编排的原子应用正逐步向agent演进【知识检索的重要性知识检索的重要性】无论智能体产品如何升级,无论知识形态如何演进,基于基于我司“我司“icentericenter”空间页面”空间页面存量存量知识的治
3、理,更新,检索都是私域研发提效落地的重知识的治理,更新,检索都是私域研发提效落地的重要环节,也成为堵点之一要环节,也成为堵点之一【痛点】【痛点】【技术维度技术维度准确率准确率】如何在海量知识中“精确”检索到“恰恰好”所需的知识,成为检索的最大难点【工程维度工程维度扩展性扩展性】一个知识库如何能够扩展到多场景开放问题的应用,成为知识库复用与扩展的关键衡量点【工程维度工程维度易用性易用性】一个知识库的构建,保活成本,对接智能体的难度,成为知识库与检索易用性的关键考核点1、技术上:传统检索“查不准”、“查不全”传统基于向量库/知识图谱的检索存在“查不准”、“查不全”两方面劣势,导致“准确率瓶颈”【现
4、状】【现状】【向量库向量库-embeddingembedding】embedding检索技术中是将文本片段进行“向量化”,通过匹配向量之间的相似度作为“语义相似度”进行召回embedding模型是特殊训练得到的“小大模型”,一般只有1B以内大小因此在复杂开放的应用场景下,极易陷入“查不准”、“查不全”等问题,导致最终应用回答错误因此在复杂开放的应用场景下,极易陷入“查不准”、“查不全”等问题,导致最终应用回答错误1、工程上:知识检索的拓展性与易用性是关键 即便从技术上解决了检索准确率问题,新技术与方案的场景拓展性与易用性也成为落地推广的关键堵点【现状】【现状】为解决关联知识的检索准确问题,有线
5、院进行了知识图谱知识图谱的知识存储,管理,检索方式的探索与升级,解决了复杂关联知识的精确检索问题【知识图谱痛点知识图谱痛点】知识图谱的建设门槛较高,对icenter页面存量知识的结构化要求高,对建设者能力要求高 知识图谱的应用门槛较高,NQL语句的应用与调试对应用者能力要求高有线院掌握知识图谱的建设、更新,应用的同事不超过有线院掌握知识图谱的建设、更新,应用的同事不超过2020人人当前可接触的检索技术与落地解决方案中:当前可接触的检索技术与落地解决方案中:“准确率”“拓展性”“易用性”成为“不可能三角”“准确率”“拓展性”“易用性”成为“不可能三角”【目标】【目标】通过技术通过技术+工程全面升
6、级优化,针对工程全面升级优化,针对icentericenter页面提供一种轻量级,多场景通用,用户友好的白盒化可配置页面提供一种轻量级,多场景通用,用户友好的白盒化可配置的知识检索综合解决方案,面向有线院提供统一的知识检索服务的知识检索综合解决方案,面向有线院提供统一的知识检索服务解决思路2、整体解决思路 目标:通过技术通过技术+工程全面升级优化,提供一种轻量级,多场景通用,用户友好的白盒化可配置的知识检索综合解决方案,提供统一的知识检索服务工程全面升级优化,提供一种轻量级,多场景通用,用户友好的白盒化可配置的知识检索综合解决方案,提供统一的知识检索服务 综合解决方案:前后端联合产品化运作,后