1、去哪儿网利用AIGC生成checklist实践沙丹丹去哪儿网沙丹丹去哪儿网 基础架构-基础平台2017年加入Qunar,致力于提升研发和测试人员的效率,在CICD、测试工具领域有丰富的经验。目前主要负责去哪儿网测试工具相关的开发和布道、AI智能体平台相关建设等。曾负责接口自动化测试平台、全链路压测、故障演练、AI智能体平台从0-1的落地等。目录01CONTENTS0203背景介绍设计思路和实践方案落地效果04未来规划01PART ONE背景介绍项目流程中的痛点1342PM/DEV/QA 三方沟通平均耗时30min-1h,沟通3+次自测自发占比高:80%无QA提供checklist开发不写che
2、cklist,容易漏测QA写checklist,无排期,挤占测试时间Checklist覆盖度依赖经验写checklist平均耗时:5pd以下需求1-2h5pd以上需求3-5h逻辑清晰,沟通效率高逻辑混乱,沟通效率低无评估标准,只能凭感觉需求文档质量参差不齐自测自发需求需求沟通效率低!#$%&(#$()&*+非自测自发需求使用大模型生成checklist的优势质量好:checklist可接受程度高质量差:checklist可接受程度低from 写作业to 批改作业提升自测质量from 不写作业to 批改作业解放QA写checklist的过程可以检查需求文档的质量02PART TWO设计思路及实践
3、方案行业参考案例基于自有大模型及微调的一键生成方式基于通用大模型多轮问答的方式门槛高、成本高、需要数据积累有迁移、整理成本Qunar探索的解决方案主要(便捷):基于通用大模型+聚焦于需求点+集成项目研发流程中的一键生成方式辅助(灵活):智能体多轮问答系统架构系统流程1.从项目流程的写测试用例环节触发自动生成2.获取需求文档,对文本进行拆分3.结构化文档+prompt向大模型提问4.将返回结果进行转换,渲染为脑图文件5.归档自动生成与手动修改的内容,分析数据技术关键点LLM选择需求文档预处理&prompt设计建立效果自动评估机制与项目流程集成LLM选择从零开始自主训练大模型模型微调chatGLM
4、使用非定制化大模型,相同prompt,相同需求下的表现gpt-4-trubo文心一文心一言言chatGLM3-6Bcase采纳率60%-70%40%-50%30%-40%case召回率30%-40%20%-30%20%-30%成本0.21元/千tokens0.012元/千tokens0有对外部大模型接口的封装安全审核接口统一化处理大模型自主维护能力尚未建立硬件成本高,预算有限可进行开源大模型的微调,需要提供训练数据集缺少需求和对应checklist的标准数据集现状:内部LLM基建进度较慢需求文档预处理需求文档拆分为什么要对需求文档进行拆分?产品效率驱动,对规范性关注较小无固定模板文档质量参差不
5、齐需求文档中无关内容影响生成效果背景目标工时后评估.现状:需求文档规范性差整篇需求文档效果较差,输出结果是需求点的概括!#$%&!#$%&()!*()!*!#$%!#$%checklist需求文档预处理需求文档拆分探索1:设定产品文档格式规范对产品角色要求变高、QA角色获益,难以推进!#$%&!#$%&()!*()!*!#$%!#$%checklist需求文档预处理需求文档拆分探索2:归纳总结现有产品文档格式按一级或二级标题提取出需求正文!#$%&!#$%&()!*()!*!#$%!#$%checklist&()+,*+,-./0!12-./03456789:;!121234?1,-!#/05
6、6!#$%&()*+,-./01)*2+,3434(56787899:;?ABCDEBCDEFGHIJ;KLMKNJ=OP?/QJ;KR(SHTUVWGX34Y(%:;?#$A=?#$A()!*()!*!#$%!#$%checklistBCD+,EFGH9()!#$IJKL!12ABCDMNOPQRSTJ!#$UUUVWUUU1234$%*Z+,34/34A*ZR%#(4/_abcdQJ;Kefghij%(4/_abcdQJ;Kef56.EF!GH;I1JKLMNO?I1PJK/0/0;QRST789XYZNK