1、业务部门通过自研AI系统增效的解决方案李琦|神州网信演讲嘉宾李琦神州网信技术有限公司 高级支持工程师在技术服务领域拥有15年的行业洞察和实践经验,流程改进专家,公司数字化转型的先锋和关键贡献者。技术领域涵盖了服务技术管理、软件工程、Python、提示词工程、数据库管理以及自然语言处理(NLP)。目 录CONTENTS1.背景介绍2.AI大语言模型的赋能3.实战案例分享4.现存问题与未来规划5.总结与展望背景介绍PART 01背景介绍面临的挑战与痛点部门内部数据共享不畅,影响决策效率和服务质量数据孤岛问题效率瓶颈问题业务部门懂业务,研发部门懂技术传统客户服务流程手动操作步骤过多效率低下数字化转型
2、历程-初期尝试与探索流程挖掘工具+自动化工具业务流程优化和自动化数据可视化仪表板促进数据驱动决策AI大语言模型赋能PART 02LLM赋能LLM赋能SummarizeExtractGenerateClassifySearchRewriteTO CTO B?落地实施方案训练LLM-端到端模型 耗时耗力,成本较大(金钱+人力+数据)单一任务场景 使用SOTA model并不一定可以得到SOTA result 具备推理泛化能力懂得业务的AI优先需要懂得业务的人业务=流程+数据代码实现次之文本预训练基础大模型微调SFT模型放弃训练LLM-非端到端模型 保留LLM对于公共知识的感知能力 灌输领域知识的认
3、知能力 每个企业都有自己的SOTA model实战案例分享PART 03电话量逐年上升用户对解决问题速度的要求快速定位解决方案的需求服务电话中心面临的挑战累计电话量达20000+1月2月3月4月5月6月7月8月9月10月11月12月电话量邮件2023年2022年2021年案例一:利用LLM助力案例处理 需要业务背景 关键词模糊 递进查询 手动筛选目前的知识库(关键词搜索)上下文语义理解 支持多轮问答 整合答案 数据本地化理想的知识库(向量搜索)痛点第一阶段:向量相似度匹配的AI知识库少量数据集匹配速度快语义相似度搜索优势问答对的单一形式源数据内容交叉信息少对用户提问要求高劣势图片来源:Retr
4、ieval-Augmented Generation for Large Language Models:A Survey第二阶段:以高级RAG为核心的自研AI知识库从多文档中挑选出针对用户提问的单一文档或相关段落本质 是一个多文档的检索问答系统重新梳理AI知识库系统的任务需求需求更新&技术方案进阶Pre-Retrieval(预检索)阶段的优化 优化搜索查询(Query Rewriting):修改查询问题,问题重构及实体命名 实施查询路由(Query Routing):判断使用向量检索或知识图谱数据源的优化 企业文档的数据标准化应用分层检索文档分层级拆分改善检索对称性文档生成问答对增加数据源多
5、样性问答对变形与数据源的适配-用户提问的特征推理型问题数据标准化带来的痛点-割裂的数据原始数据源的数据标准化虽然增加了检索准确性,但丢弃了很多上下文内容;内容虽然独立且易于检索,但缺失了原文所体现的因果联系。因此仍然需要保留企业文档。新范式Self-Correct RL以查询路由的方式来判断问题特征,以此确认预设的双阈值。双阈值的设计允许在短语或文档级别之间切换检索目标。对于推理型问题,只有全文内容才可以完全体现“因果”性。而若想在短语层面体现“因果”性。需要通过打分、评价等数据形式来进行强化学习。以现阶段来看这种额外的因果联系的建立并不可信,因为它增加了处理过程的复杂性,导致最终的结果未必准
6、确。解决方案 双阈值设计 对检索文档打分和过滤:按搜索相似度得分过滤;执行不同流程;双阈值设计:双阈值是由用户可自定义的两个数值,代表高阈值和基础阈值,目的是为了确定检索目标是短语还是文章,进而路由。Post-Retrieval(后检索)阶段的优化 重新排名以优化搜索结果(Rerank)多个输出的排序 通过链式思维提示屏蔽噪音(Fusion)唯一答案的确认 使用上下文压缩优化搜索结果(Summary)多个输出的整合第二阶段:以高级RAG为核心的自研AI知识库特定性内容输出结果不理想劣势支持多种文档格式优势降低用户提问要求相似度匹配结果提升交叉型内容检索仍有混淆Knowledge GraphsV