1、CodeArts Snap 研发大模型评估探索张琦华为技术有限公司 大模型技术专家张琦华为技术有限公司 大模型技术专家华中科技大学博士研究生.华为技术有限公司大模型技术专家,负责 AI 研发助手 CodeArts Snap 的竞争力建设以及能力交付.端到端负责数据准备,模型训练,模型评估以及服务交付.目录01CONTENTS0203大模型评测现状以及面临的挑战华为研发大模型评估工程未来的探索以及思考百模大战开启如何衡量一个模型的好坏?模型能力越来越强,功能与来越多智能自主人监督AI开发 智能辅助AI辅助代码开发 0%100%80%20%需求&设计开发&验证CI&CD发布&部署运维&运营10%智
2、能协同AIGC应用架构初步形成 如何衡量一个模型的好坏?CodeArts Snap 的前世今生Pangu-CoderCodeArts SnapPangu-Coder2CodeArts Snap22年7月22年11月23年7月23年7月代码生成能力亿级/十亿级参数模型业界SOTA,多项重要指标国际领先 智能开发助手首次亮相HC大会,开启邀测推出百亿级参数大模型和千亿级参数大模型智能开发助手亮相HDC大会,现场演示端到端应用开发CodeArts Snap 8 大能力代码生成智能问答UT 生成代码解释代码注释代码调试代码翻译代码检查大模型评测存在的问题评测标准评测数据集评测执行评测影响力评测标准落后
3、,模型能力强不代表用户体验好,评测标准需要贴近用户体验.研发场景:评测数据集的场景覆盖度不足,比如运维、设计、需求等方向.垂直领域:评测数据集覆盖的产业以及垂直领域也不完整.评测执行自动化率不高:1.占用非常多的人力资源,评测效率不高.2.人工评测导致主观因素强,评测结果不客观.评测在业界影响力不足.1.与客户交流沟通成本很高,难以证明我们的能力优于竞品.2.缺乏统一规范会导致测试结果的不一致性,难以比较和评估不同模型的能力.目录01CONTENTS0203大模型评测现状以及面临的挑战华为研发大模型评估工程未来的探索以及思考评测体系建设模型问题评测指标评测方法评测数据集以用户视角,从大模型问题
4、出发,确定评测指标和评测方法,最后完善补充数据集.评测体系迭代模型训练模型评估模型发版数据收集020304在线评估用户使用模型上线模型迭代01研发大模型评测体系l中英文混答l多轮关联准确度l代码格式lMarkdown 格式l复读ll数据隐私l恶意输入处理l模型鲁棒性l伦理和偏见l供应链安全l提示词注入l体验安全能力性能l首Token响应时间l增量推断时间l吞吐量l资源利用率l数据传输效率l并发增长性能l模型能力相关评测指标代码生成单元测试生成 代码调试代码解释代码注释代码翻译代码检视研发问答摘要生成SQL生成命中率编辑距离BLEUCodeBLEUROUGE语法正确率代码完整率复读率编译率Pas
5、sK行覆盖率分支覆盖率揭错率断言准确率正确率关键词命中率代码保持率遵从性CIDErM3E价值结果比例语义相似度回答稳定性上下文一致性问答语言一致性代码相似度EMEX行号准确率CoderEval 数据集OpenAIGoogleHuaweiHumanEval:在代码生成领域,当前最广泛被使用的,是OpenAI在Codex论文中开源的HumanEval,该基准测试集由164 道由OpenAI工程师手动编写的编程任务组成,以一定程度上确保与训练集的不重叠性,只支持python语言的passk评测。CoderEval:针对HumanEval的限制和不足,我们提出了CoderEval,一个更加注重实际场景
6、可用性的代码生成模型评测系统。支持python:自43个项目的230个生成任务、java:包含来自10个项目的230个生成任务MBPP:benchmark包括大约1000个众包Python编程问题,旨在由入门级程序员解决,涵盖编程基础知识、标准库功能等。数据集语言题目数评测方式难易程度数据组成其他优点HumanEval19164/语言PassK难度适中手动编写的算法类题目当前最广泛被使用MBPP131000/语言PassK偏向入门众包的算法类题目题目数多CoderEval2230/语言PassK难度适中Github受欢迎的真实项目,覆盖多个领域,包含上下文信息,6个级别的生成任务1.贴近真实开