房春荣-基于大模型的测试断言生成技术.pdf-在线下载-三个皮匠报告

1、基于大模型的测试断言生成技术房春荣南京大学演讲嘉宾房春荣南京大学副教授博士，南京大学软件学院准聘副教授、特聘研究员，博士生导师，紫金学者，CCF高级会员，系统软件/容错计算专委会委员，主要从事智能软件工程研究(BigCode&AITesting)。主持国家自然科学基金项目3项，国家重点研发项目骨干2项，教育部产学合作协同育人项目3项，横向科研项目若干。在CCF-A会议/期刊发表论文40余篇，获得国际会议最佳论文1项，申请发明专利10余项，部分成果在华为、百度等知名企业应用。曾担任AST、AIST等国际会议程序委员会共同主席，多次担任国际顶级会议程序委员会委员及顶级期刊审稿人，并多次获得杰出审

2、稿人。参编多项软件工程和工业APP相关国家、省、团体标准。获2022年国家级教学成果奖，CCF TCFTC2021年软件测试青年创新奖，2020国家级一流本科课程、2018国家精品在线开放课程软件测试。目录CONTENTS1.研究背景2.单元测试生成和修复3.单元测试的断言问题初步探索：面向单元测试场景的大模型断言生成能力检索角度：基于混合检索增强的单元测试断言生成训练角度：基于检索生成协同增强的单元测试断言生成4.应用验证5.总结与展望研究背景大语言模型和单元测试基础PART 01研究背景-单元测试与测试断言单元测试的例子测试前缀测试断言功能实现预期功能单元测试：一种被广泛接受的甚至是强制

3、性的开发实践断言问题：预期的行为或测试断言应该是什么研究背景-单元测试生成方法存在的主要问题大模型生成单元测试的流程图n 以大模型会话迭代为主要框架的代表性方法充分利用了大模型的语义理解和代码生成能力，n 以 CODAMOSA 为代表的算法，计算资源的开销主要取决于选取的传统测试方法，大模型作为辅助工具来改进传统测试方法研究背景-单元测试生成方法存在的主要问题n 生成无效测试用例：大型语言模型（LLMs）可能在上下文不足的情况下生成无效的测试用例，导致编译错误。这意味着生成的测试用例无法成功运行，影响测试过程的有效性。n 缺乏测试和覆盖反馈：缺乏详细的测试反馈和覆盖率信息可能导致生成的测试用例

4、在运行时出现错误，并且覆盖率低。这意味着生成的测试用例可能未能充分测试目标代码，从而降低了测试的全面性和有效性。n 重复抑制问题：现有方法中，LLMs可能会陷入自我修复或再生成尝试的重复循环，导致生成过程低效。即模型在面对生成错误时，可能会不断尝试修复同样的错误而无法前进，从而浪费计算资源和时间。研究背景-单元测试生成方法存在的主要问题n 基于LLM的单元测试生成的局限性：EvoSuite缺乏深入理解源代码的能力，因此复杂的前提条件缩小了基于搜索的测试生成方法的适用范围。尽管LLM在理解语义信息和推理生成能力方面表现出色，但生成的测试用例中不可避免地存在编译错误和运行时错误。如果这些错误能够得

5、到修复，LLM生成的测试用例质量将大大提高。研究背景-自动断言生成方法存在的主要问题n 手动编写单元测试的劳动密集性：编写测试断言通常非常耗时且劳动密集，需要测试专家手动插入测试输入（如前缀）和测试输出（如断言）。n 现有方法的局限性：基于深度学习（DL）的方法通常需要大量的训练数据，并且可能在处理特定任务时表现不佳。依赖于从现有数据中检索相关的测试断言，可能会受到词汇匹配的限制，难以生成语义上有意义的断言。许多现有方法没有采用联合训练策略，导致检索器和生成器之间缺乏协同优化，无法充分利用各自的优势来生成更准确的断言。许多现有方法在有限的训练数据上表现不佳，难以生成高质量的断言。现有使用LLM

6、进行单元测试生成的技术的有效性并没有系统的比较研究。单元测试生成和修复PART 02单元测试生成-基于提示引导和动态反馈的大模型测试用例生成和修复n 生成阶段：是TestART方法的核心步骤，旨在利用大型语言模型（LLM）生成初始的单元测试用例。通过这一阶段，TestART可以自动化生成测试用例，从而减少人工测试的工作量，并提高代码覆盖率。生成阶段的成功执行依赖于有效的上下文预处理和模型提示设计，以充分发挥LLM的潜力。n 修复阶段：修复部分介绍了一种通过联合训练来改进检索增强的深度断言生成方法（AG-RAG），AG-RAG结合外部代码库和预训练语言模型，解决了以前方法中的技术局限，在所有基准