1、2026.03.24阿 巴巴 全球总部 _访客中中国杭州 HANGZHOU CHIAAI撬动团队服务 传统测试团队AI赋能的经验和教训 陈磊 前京东测试架构师演讲嘉宾陈磊前京东测试架构师,阿云 MVP,华为云MVP 模型测试技术与实践、接测试法论、持续测试、现代软件测试技术权威指南、软件研发效能权威指南等图书作者。极客时间专栏“接测试课”,“AI重塑测试开发系统实践”作者。具有多年质量程技术实践经验,测试团队动化测试转型实践、智能化测试等,公开发表学术论近30篇。步坑,团队的起点1消除疑惑,拥抱智能化2激进,乐极悲3反思,再出发4团队的展望5步坑,团队的起点1审视能,分析技术成本步坑测试开发组
2、6个,显卡3张,服务100+的业务测试程师提示词程RAG微调训练1.技术成熟,很多平台框架都持 2.数据整理相对容易 3.foundation model很强 4.很多lowcode的平台很容易上1.槛很低,但是做好难 2.利模型能的系统都需要 3.框架多,难掌握难度投1.微调仍旧需要算 2.数据标注需要量投 3.foundation model很强 4.当前框架成熟例如unsloth等1.训练模型投很,卡难求 2.为测试训练个foundation 模型ROI太低 3.训练数据仅靠测试程师很难完成标注步LoRAembeddingEncoderDncoderSoftmax outputembed
3、dinginputsoutputsTemperature settingSelf-attentionFeed forward networkSelf-attentionFeed forward networkWeights Applied to Embedding vectorsPEFT 的LoRA:1、冻结原来的 权重 2、两个低秩序矩阵分解计算个和原来 权重 相同、列的矩阵。3、冻结的原来的权和计算后的低秩序矩阵实现原来的微调。BA=BABA+=急转弯从最难到最简单LoRA 预训练模型任务数据集GPU微调框架LoRA的实现超参设置评估和实验数据标注在标注数据上训练模型部署并且调训练好的模型
4、1个以上3个以上3个以上VS调模型调模型分钟或时分钟或者时Prompt Engineering微调消除疑惑,拥抱智能化组织内出现了波热潮2零样本少样本CoT问问题催眠提示词框架从0到N在给定的向量空间,构造条“最短路径”把你的意图投影到模型可操作的空间,并确保解码器沿这条路径,回到你想要的语义出。举例问问题催眠举例步骤分解问问题提示词框架从N到0学多了也是种困惑 Google的实践APEBROKECHATCRISPECARECOASTCREATERACERISEROSESRFTSAGESCOPESPATAGTRACELangGPTReAct解题思路你是谁 你在哪 要什么(分解)怎么告诉我招胜有
5、招Dify平台上的推要实现的功能类封装函数封装函数调Prompt分解步骤处理单个逻辑函数调实现flow数据的处理组织内完成了需求、测试例、缺陷的治理统登录系统 AC1:公司统户名和密码可以登录系统 AC2:错误的户名或密码有正确提 AC3:输框特殊字符过滤需求例1例2例3例缺陷1缺陷2缺陷3缺陷4激进,乐极悲禀赋效应的坑3接测试例模型成实践借助LlmaIndex的NodeParser实现测试代码成 借助LlmaIndex的CodeParser实现测试代码成 借助LlmaIndex的Test2SQL实现测试数据成 测试平台+模型和测试程师的盾点 02等待时间,影响作流畅性LLM 模型处理复杂任务
6、时,响应或成结果的等待时间较,尤其是在负载或多任务并场景下。这导致测试程师的作节奏被打断,作效率降低,整体流程显得不流畅。01固定流程缺乏灵活性当前测试平台采固定的动化流程,从开始到结束呵成,但测试程师在过程中发现问题时难以预或调整。例如,法暂停流程、修改参数或针对特定问题进临时调试,导致问题被忽视或需要事后重新运,增加返成04模型能不,审查负担重模型法完全独完成质量测试任务,成的测试例、报告或分析结果常存在偏差或错误。测试程师需要花费量时间进审查和修正,审查过程繁琐且耗时,增加了作负担。03产出稳定性差,成果波动