A3--涂勇军--端侧AI算法评测之实践.pdf-三个皮匠报告

1、端侧AI算法评测之实践OPPO涂勇军从事软件测试及管理工作十余年，先后从事数据通信、云计算、大数据、AI算法等相关领域测试，现任职OPPO，负责视觉理解方向算法测试。高级软件测试工程师嘉宾照片目录CONTENTS端侧算法测试特点01 测试实践与探索02 回顾与展望03 01端侧算法测试特点1.1端侧算法特点应用多算法多用户感知度高场景开放1.2端侧算法测试痛点人工智能白皮书（中国通信研究院）The-AI-Act人工智能法案（欧洲）Blueprint For An AI Bill Of Rights人工智能权力法案蓝图（美国）正义公平非歧视性多元包容透明可信可复现性可解释性DataBlack-B

2、ox AIAI productWhy YES？Why NOT？When YES？When NOT？How to correct an error？How to verify？Good/Bad？User偏见成因数据偏差设计偏差使用偏差数据缺失、数据不均衡关键特征忽视、设计倾斜使用环境、社会文化偏差1.3端侧算法测试能做什么？AI算法测试算法测试传统测试传统测试需求聚焦于场景聚焦于功能实现测试对象算法模型软件逻辑用户用户感知，关注场景效果用户使用，关注功能实现标准学术化指标居多、不贴近用户系统对用户需求和预期功能的满足度算法模型选型算法选型样本数据构建场景分布、场景特征技术探索工具/评价方法、可释

3、可信等工具/评价方法数据数据驱动的AI模型答案AI规则新数据答案数据经典程序设计规则答案02测试实践与探索2.1测试实践需求需求分析、场景定义举例：需求调研+多模型比较 +标签价值评估建立标签体系2.2测试实践标准主观客观用户感受用户行为算法表现+系统表现智能化感受、情感价值提升、满意度、净推荐值功能完整度、易用性、使用频次、停留时长、效率、三方应用兼容性算法主客观指标、推理速度、一致性、功耗、稳定性、隐私安全AI算法指标优劣算法指标优劣刻画模型认知能力边界一级能力二级能力三级能力刻画不同任务的某个能力状态一级指标二级指标三级指标待评价的对象及子项任务项任务子项1任务子项n生成任务检测任

4、务分类任务分割任务评价任务感知能力知识获取能力推理能力描述能力创造性任务指标能力模型B模型A2.2测试实践标准（举例）算法层面应用层面用户层面Micro-Acc/Macro-AccMicro-Precision/Macro-PrecisionMicro-Recall/Macro-RecallMicro-F1/Macro-F1基于标签评价Subnet-AccHamming LossAccexamPrecisionexam/Recallexam/F1exam基于样本评价场景多样化分类精准度检索有效性Badcase(敏感性、数量)基于用户评价TOPn标签指标高优、高敏、高频指标正/中/负向、黑名单过

5、滤指标竞品对比基于场景评价O粉众测面临问题和挑战1、数据规模：规模足够大，多样性丰富，覆盖用户需求和开放场景，减轻长尾、偏见问题难点：开放场景中长尾问题不可避免，不同视角会有不同维度的数据长尾出现。难点：特征漂移大部分由数据源导致，线上/线下数据特征差异分析。2、数据质量：多源数据的融合，存在数据特征分布漂移、标签缺失、概念变迁等问题3、迭代效率：如何在开放场景下高效的测试，快速进行问题溯源及问题响应等2.3测试实践数据2.3测试实践数据数据集迭代沉淀数据新增数据多项目数据源整合人脸、标签、行为、文字等开放场景数据补充人脸、标签、行为、文字等特征分析场景知识提炼算法辅助多模型、大模型、数据

6、闭环数据探索用户场景挖掘算法辅助监督/无监督、数据闭环表征学习聚类分析场景建模多模态(V-L)领域专家模型新类发现主动学习知识/概念库图-文/图-图检索半监督方法工具多源数据周期更新原子能力子集真实/模拟用户相册子集多个复合能力子集持续扩充的难例集用户场景分布下的规模化测试数据池功能满足传播价值覆盖度大规模特征分布合理开放场景真实数据技术前沿算法研发角度产品功能、用户需求角度大模型图-文多模态可解释性用户场景情感满足情感化个性化结构化数据构建视角绿色：训练/测试数据分布蓝色：用户数据分布2.4测试实践工具数据平台前端入口数据集制作选择被测算法测试集

A3--涂勇军--端侧AI算法评测之实践.pdf

相关报告