1、大模型时代质量工作的探索与思考刘瑾(睿枢)蚂蚁集团刘瑾(睿枢)清华硕士、在互联网toC搜广推、大安全、移动端、金融科技等业务具有10年以上质量和风险管理经验。3年智能化金融toB业务和产品负责人,具备丰富的业务和研发管理经验。目前专注于蚂蚁财富在对话、运营、生成等场景的大模型应用落地和底座的质量和风险工作。蚂蚁财富和平台部 质量与技术风险总监目录CONTENTS大模型时代财富平台质量工作的新要求01 大模型AIGC在蚂蚁财富质量与风险的探索与思考02 质量工作的管理实践和展望03 数字化运营的探索与实践案例数字化运营的探索与实践案例1 金融服务的探索与实践案例金融服务的探索与实践案例2 数字化
2、资产的探索与实践案例数字化资产的探索与实践案例3 在线风险防控体系升级在线风险防控体系升级 4 01数智化时代财富平台质量工作的新要求1.1 大模型行业发展现状及挑战关键挑战关键挑战发展现状发展现状数据来源不均衡,导致算法存在潜在的偏见风险伦理偏见模型算法具备强不可控性,内容存在风险可控性差模型能力逐步开放且成熟,用户恶意使用风险暴露恶意应用数据规模体量较大,数据泄露风险加剧数据隐私天然的黑盒属性,导致大模型难以保障透明度透明度差训练数据由于多重因素干扰,模型鲁棒性不足鲁棒性不足 横向拓、纵向深化,重逐步迁移态建设 应模式持续创新,服务模式益丰富 与业务需求加速融合,全赋能垂直场景 性能不断提
3、升,逐步展现多维技术能金融服务服务体验效果保障资产交易稳固底盘基础平台端保障,用户体验资损防控,测试提效财富平台1.2 财富业务介绍数字化运营运营提效和活动保障资产业务02大模型AIGC在蚂蚁财富质量与风险的探索与思考2.1 数字化运营-业务特征020406080100供给量级安全合规风险基础质量风险业务效果诉求表达质量风险业务合规风险GC模式-挑战比对传统GCAIGC户异常字符错词错字基础质量业务合规安全合规表达质量展示乱码诱导销售收益承诺赌毒语句不通畅表述不致展示失败融场景不符涉政敏感财富业务进入丰富内容供给、更精细化运营新阶段财富业务场景财富户供给 更精细化的户洞察+供给匹配 更丰富的内
4、容供给(AIGC撑)AIGC-检测能升级创意供给质量挑战AIGC-审核&保障升级创意供给上线效率挑战安全合规8个二级分类通用能力流畅度语法正确性7个三级分类多样性2个三级分类金融合规大模型事实性4个三级分类金融业务合规9个三级分类金融逻辑一致性2个三级分类专业可理解性金融逻辑常识性互联网广告管理办法中华人民共和国广告法中华人民共和国反垄断法中国人民银行金融消费者权益保护实施办法中华人民共和国反不正当竞争法关于进一步规范金融营销宣传行为的通知四部门提出“八不得”规范金融营销宣传著作权法个人信息保护法等相关法律法规相关性3个三级分类2.1 数字化运营-AIGC内容防控架构设计2.1 数字化运营-A
5、IGC内容防控方案设计2.1 数字化运营-分发推荐链路保障方案分发链路保障方案多样性保障方案推荐链路多样性评估第一阶段总体多样性个体多样性时序多样性供给&分发联动评估第二阶段素材多样性素材效果分析分发多样性反哺供给第三阶段挖掘用户偏好牵引生产方向业务指标(GMV DAU)效果指标(曝光 CTR CVR)2.2 金融服务-业务背景金融智能服务智能金融量化 资产配置 智能定性分析量化选品 保障配置风险量化 市场风险交互式体验 多模态问答 全周期陪伴智能线索 智能话术 服务推荐消费级:支小宝2.0产业级:支小助系列2.2 金融服务-金融大模型的评估体系蚂蚁金融大模型交互与认知中枢(语言力)NLU N
6、LG RLHF NL2API SFT知识引擎(知识力)金融信息服务 金融知识图谱 金融百科服务引擎(专业力)研判 选品 配置 演算 两核 金融围栏安全性适当性真实性蚂蚁金融大模型评估体系评估知识库标注资产训练数据反馈资产小样本评测 大样本评测 有向期望评测 MFT巡检分层指标树 benchmark badcase归因评测能力数据资产指标驱动目标:通过指标评价矩阵驱动产研服务质量持续迭代、评价模型能力2.2 金融服务-金融大模型评测集FIN-EVAL 金融AI任务评测集5大场景:金融服务认知、金融内容生成、金融知识理解、金融逻辑加工、安全合规底线,共28个