1、办公领域大模型应用的测试实践汪洋科大讯飞 高级测试工程师汪洋科大讯飞 高级测试工程师科大讯飞 消费者BG 高级测试工程师,10年以上C端AI产品测试经验,目前主要负责听见SaaS平台的质量保障和效能提升等工作,保障千万级用户SaaS平台的高可用性和稳定性、音视频转写效果、讯飞星火大模型写作产品效果的评测,专注功能和非功能测试效能提升。目录01CONTENTS0203背景与诉求探索过程实践方案04未来规划01背景与诉求办公领域大模型应用简介讯飞写作AI模板写作,关键词驱动的多场景模板写作AI润色工具,文章润色无压力AI素材写作,导入素材辅助写作讯飞听见会记在线录音,同步转文字重点随时记录,快速定
2、位原文AI摘要抓取,抓住核心观点办公领域大模型应用测试诉求营销种草文案朋友圈文案微博推文知乎问答大众点评视频文案职场会议纪要PPT大纲演讲稿培训主持稿头脑风暴职业规划公文调研报告工作汇报通知邀请函讲话稿政策文件新闻新闻资讯国际新闻财经新闻体育新闻科技新闻娱乐新闻学习心得体会感想感悟读后感论文大纲开学致辞实践报告会议全文摘要章节速览说话人总结全文概要主要内容待办事项模板写作会议记录工具全文规整全文摘要全文改写全文扩写全文缩写全文续写AI工具与通用大模型能力测试的异同测试维度更广大模型能力本身标准测试集聚焦语言理解与生成大模型能力+prompt工程开放测试集+能力边界探索02探索过程AI能力测试三
3、件套评价指标定义一系列量化指标和评估准则,如准确率、召回率、F1分数等,用于衡量AI能力的效果。测试集精选的一组数据样本,包含不同领域、难度层次及多样性情况,以全面评估AI能力的准确性和泛化能力。执行方法测试执行的详细步骤,包括环境设置、测试流程、数据记录和结果分析,确保测试的一致性和可重复性。机器翻译质量评估的启发人工评分忠诚度+流利度可理解度自动评分BLEUROUGE自动评分指标假设有一个信息检索系统,它从一系列文档中检索出与用户查询最相关的文档,检索信息如下:与用户查询相关的文档数(TP+FN):10 检索出的文档数(TP+FP):5 检索出的文档中与用户查询相关的文档数(TP):4精确
4、率=检索出的与用户查询相关的文档数/检索出的总文档数=4/5=0.8召回率=检索出的与用户查询相关的文档数/与用户查询相关的总文档数=4/10=0.4F1=2*0.8*0.4/(0.8+0.4)=0.53指标说明示例解析自动评分算法评价重点更注重生成文本的精确率,即与参考文本完全匹配的n-gram数量更关注生成文本的召回率,即包含在参考文本中的n-gram数量通过计算n-gram的匹配度来衡量生成文本和参考文本的相似性,还考虑了短语匹配、句子长度等因素主要基于n-gram的召回率来评估,其中ROUGE-N考虑n-gram的匹配数量,ROUGE-L考虑最长公共子序列,ROUGE-W考虑窗口序列匹
5、配等更常用于机器翻译等任务,因为它更侧重于准确性更适用于文本摘要等任务,因为它更注重召回率,即生成文本中包含了多少关键信息主要关注生成文本与参考文本之间的语法和词汇相似性,并不直接考虑文本的语义层面,在评估语义效果时存在局限性计算方式适用对象语义评估ROUGEBLEU人工评分标准平均意见分数(MOS)是在体验质量和通信工程领域中使用的衡量标准,代表刺激或系统的整体质量。它是所有受试者“在一个预先定义的范围内,一个受试者分配给他对系统质量表现的意见”的算术平均数。MOS 由一个有理数表示,通常范围在15之间,其中1表示最低感知质量,5表示最高感知质量。MOS 的范围取决于在基础测试中使用的评级量
6、表。例如,可以使用 1-100 之间的连续刻度。使用哪种量表取决于测试的目的MOS 的计算方法是人类受试者在主观质量评估测试中对给定刺激进行的单个评分的算术平均值定义规则公式自动评分与人工评分对比自动评分算法自动计算得分,效率高初期开发和训练算法的成本较高,但一旦部署,边际成本较低算法评分通常具有很高的一致性,对于相同的输入,算法会给出相同的评分结果依赖于算法模型的设计和训练,可能无法完全捕捉到文本的所有细微差别,特别是在语义理解方面可能存在局限通常只能提供一个总体得分,难以提供具体的改进建议或反馈人工评分人工逐份评分,耗时长,效率低每次评分都需要支付人力成本,尤其是在大规模评分时成本较高可能