《A1--孙旭峰--AI重塑数据生态:从元数据治理到智能决策的架构演进.pdf》由会员分享,可在线阅读,更多相关《A1--孙旭峰--AI重塑数据生态:从元数据治理到智能决策的架构演进.pdf(44页珍藏版)》请在三个皮匠报告上搜索。
1、AI重塑数据生态:从元数据治理到智能决策的架构演进 孙旭锋 曹操出行,大数据数仓负责人孙旭锋曹操出行,数仓负责人持续深耕大数据,曾就职于虾皮、中通、菜鸟、京东、用友等公司。主导公司PB级湖仓一体化架构设计与落地,擅长通过数据架构优化支撑出行业务场景,曾推动数据查询效率提升300%,成本下降40%。01020304 元数据管理的标准化落地:AI驱动的数据治理革命智能诊断:从故障排查到预测性运维指标异动的快速感知与归因:大模型的实时决策引擎未来展望:未来的数据架构将是“会思考的智能中枢”元数据管理的标准化落地:AI驱动的数据治理革命元数据管理的标准化落地元数据管理的痛点01智能问数的核心价值02智
2、能问数的架构与设计03智能问数面临的挑战及解决措施04智能问数的效果演示05智能问数的下阶段引进方向06元数据管理的痛点 数据地图里有3w多张表,为什么就是找不到我想要的表?成单量的指标口径是什么?这个表的使用说明有吗?我看字段注释都不全的 这个数据我取得没问题呀,为什么数据看上去不对?用户的困扰 为什么这么多人,取个数据都要这么慢?现在AI都这么火了,你们还要靠人工取数?老板的质疑智能问数的核心价值010302智能问数能够快速生成SQL语句,提高数据查询效率,减少开发人员的工作量,释放数据生产力。智能问数通过自然语言交互,让用户能够更便捷地获取数据,提升用户体验,减少取数门槛。智能问数结合元
3、数据管理,优化数据治理流程,提升数据治理能力,确保数据的可用性和可信度。智能问数的架构与设计智能问数面临的挑战及解决措施元数据的完整性:指标口径是否准确、表使用说明、字段说明是否完整词汇歧义:同一词汇不同业务场景下的不同含义语义模糊:例如“核心城市”没有明确的定义SQL可靠性:强调转换过程中可能出现的语法、语义等错误结果准确性难验证01020304智能问数面临的挑战及解决措施建立领域知识库明确定义术语同义词扩展构建自动测试集 打造数据测试集,验证模型输出结果的一致性、准确性、可靠性用户意图识别执行引导验证当术语存在多义性时主动追问,让用户选择要的具体业务指标语法错误:编译器报错+自动修正。语义
4、错误:业务规则校验+语义监测基准智能问数的效果展示当用户打开智能问数窗口时,首先会对用户进行引导,提升用户体验智能问数的效果展示计算留存场景:2025年4月1号这天的杭州的核心司机在2025年04月15日到 2025年04月17日的 成单,流水,在线时长;按司机、按天汇总输出智能问数的效果展示灵犀助手-编辑模式智能问数的效果展示灵犀助手-预览(发布)模式智能问数下阶段演进方向千行级BI查询支持:嵌套JOIN、窗口函数、WITH子句优化专业Agent分工:查询解析、SQL生成、性能优化智能体协同行业知识库嵌入:出行行业专业术语映射表SQL逻辑可视化:映射路径透明化(如显示“司机收入=司机基础车费
5、+代收代付+奖励+其它费用”的生成逻辑)隐私保护:敏感数据自动脱敏(如乘客姓名/手机号字段加密)复杂查询突破多智能体协作架构垂直领域深化可解释性与安全增强智能诊断:从故障排查到预测性运维智能诊断为什么要搞智能诊断01智能诊断的核心价值02智能诊断的流程设计03智能诊断的基于规则&AI的诊断04智能诊断的效果展示05为什么要搞智能诊断 今天基线产出延迟了,是集群资源不足还是上游任务变慢导致的?任务执行失败了,是近期有发布吗?还是资源OOM了?Flink作业持续反压,如何优化?任务执行异常 XXX任务指标异常,是上游有调整吗?XXX任务DQC失败,是什么原因?数据质量异常 任务大批量告警,是平台有
6、什么调整吗?集群环境变更为什么要搞智能诊断周认领及时率定位及时率解决及时率5-15-60达成率2025-03-312025-04-06100.00%95.65%95.65%91.30%2025-04-072025-04-13100.00%95.00%100.00%95.00%2025-04-142025-04-20100.00%95.65%100.00%95.65%2025-04-212025-04-27100.00%100.00%98.31%98.31%2025-04-282025-05-04100.00%100.00%97.37%97.37%2025