A2--张元剑--教育产品大模型测试实践.pdf

编号:181308 PDF 36页 5.93MB 下载积分:VIP专享
下载报告请您先登录!

A2--张元剑--教育产品大模型测试实践.pdf

1、教育场景下的大模型测评与实践张元剑科大讯飞高级测试架构师、教育BG测试部副总监张元剑科大讯飞高级测试架构师、教育BG测试部副总监负责集团横向测试技术团队,教育BG公共平台方向测试,主要有中台服务、AI能力、大数据、资源等方向的测试,有10多年的从业经验对AI测试、服务测试、数据测试、自动化、性能稳定性测试有一定研究,并且对研发效能体系建设以及工程效能提升也有一定的实践经验。多次担任内部外部分享嘉宾。目录01CONTENTS0203为什么需要建立教育大模型测评体系如何评价这名“教育工作者”是否合格以测试视角看整体测试方案04自动化能力建设我们如何评价一名人是好/坏人人年纪性别外貌爱好心理财富职业

2、.主观客观画像(评价)好人坏人测评标准通用认知智能大模型测评体系教育通用人工智能大模型系列标准当前国内通用认知大模型评测体系举例内部使用提效情况从学科种类上,覆盖人类标准考试的选择题-工程科学(计算机、数理化等国内外考试)-社会科学(政治、经济、地理等)-人文科学(法学、语言、历史等)-其他科学(公务、GRE等其余国内外考试)内部使用提效情况仅覆盖医学、法学、心理、教育四个行业以高校为代表的学术答题以高校为代表的学术答题评测评测以企业为主体的自建行业以企业为主体的自建行业评测评测内部使用提效情况某咨询机构的AI大模型技术能力评估报告以机构为主体的产业以机构为主体的产业评测评测仅工业互联网领域的

3、八个行业已有了通用大模型测评体系为什么还需要教育领域测评体系?教育大模型相比通用大模型的区别在哪?面向教与学的主动引导性、回复权威风格、知识准确度有不同于通用大模型评测体系的要求1.领域专业知识:教育大模型可能会针对教育领域的特定问题进行训练,因此会对学科知识、教学方法等有更深入的理解,而通用大模型则更注重对广泛领域的知识的学习和表示。2.任务定制化:教育大模型可能针对特定的教育任务进行了优化,例如学生作业评估、教学辅助、教育咨询等,而通用大模型则更多用于广泛的自然语言处理任务,如语言生成、文本分类、问答等。3.核心价值观:面向教育的生成式内容需要更高的价值观和安全性的评测要求。4.模型效果提

4、升:公正、准确评估模型的应用性能,揭示当前模型的不足,激发研究创新。教学考评管通识安全智能编程助手百科自由问答答疑辅学作文批改目录01CONTENTS0203为什么需要建立教育大模型测评体系如何评价这名“老师”是否合格以测试视角看整体测试方案04自动化能力建设行业分析:EduTEP平台,教育领域大模型测评框架2023年5月,华东师范大学EduNLP团队针对K12教育发布CALM-EDU评测框架分数分数总体总体相关度相关度完整度完整度有效性有效性连贯性连贯性5分分回答正确且质量高,结果真实,无冗余,非常符合用户期望。生成的内容与prompt内容高度切合,没有不相关内容。生成的内容完全和用户的意图

5、对应,无任何信息缺失遗漏。生成的内容100%有用,不存在重复冗余等影响有效性的内容。回答对话流程连贯,回答内容之间的连接质量非常高,完全没有内容的任意堆砌。4分分回答基本正确,结果真实,较符合用户期望。可存在个别非关键错误或存在少量无用内容,整体质量稍差。生成的内容与prompt内容的切合度在90%以上,存在稍许不相关内容。生成的内容有个别地方存在无关信息的缺失遗漏。生成的内容90%以上有用,存在稍许无用信息。回答对话流程连贯,回答内容之间的连接质量较高,存在个别信息内容的堆砌。3分分大部分回答正确,结果真实,存在部分非关键错误,正确部分符合用户期望。生成的内容与prompt内容的切合度在80

6、%以上,存在少量不相关内容。生成的内容有部分存在信息的缺失遗漏,对整体内容理解影响较小。生成的内容80%以上有用,存在少量无用信息。回答对话流程连贯性一般,回答内容之间的连接质量一般,存在部分信息内容的堆砌。2分分大部分回答不正确或结果不真实,存在部分关键错误,只有很少一部分符合用户期望。生成的内容与prompt内容的切合度在60%以上,存在较多的不相关内容。生成的内容有60%的信息缺失,对整体内容理解影响较大。生成的内容60%以上有用,存在较多的无用信息。回答对话流程连贯性较差,回答内容之间的连接质量较差,存在大部分信息内容的堆砌。1分分有结果,但回答基本错误或回答相关度很低。生成的内容与p

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A2--张元剑--教育产品大模型测试实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠