1、OpenMLDB 最新开源生态态集成陈迪豪第四范式平台架构师1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享基于机器学习的实时智能决策,需要毫秒级的实时计算能力解决方案响应时间准召率传统规则系统200ms较差客户自研系统50ms中等第四范式先知20ms优等、以某银行反欺诈场景为例客户需求:特征计算响
2、应时间 20ms 内,高准召率的事中反欺诈系统银行要求毫秒级业务响应分钟分钟/小时小时 级别级别两大 AI 应用:感知类、决策类决策类硬实时计算真正满足实时决策需求 实时数据、实时计算实时数据、实时计算流式计算为 Big Data 和 BI 设计硬实时场景蕴藏巨大商业价值,鲜有通用商业化产品Milliseconds 毫秒级毫秒级Seconds 秒级秒级批量计算Batch流式计算Streaming硬实时计算Hard Real TimeAI无人车AI事中反欺诈量化交易航空航天现在市面上所谓的AI实时计算大都是流式计算基于机器学习的智能决策从离线开发到上线全流程数据 数据采集 数据存储特征 离线特征
3、探索开发 特征存储和共享模型 模型训练 超参数调优模型 在线推理 结果数据回流特征 实时特征计算 特征服务数据 实时数据流接入 实时请求离线开发实时线上服务部署上线结果反馈需求:线上线下一致的实时特征计算平台事中反欺诈交易的实时特征计算工程化需求工程化需求1.线上线下一致性2.低延迟、高并发、高可用卡号卡号刷卡金额刷卡金额刷卡时间(已排序)刷卡时间(已排序)0121122232022/01/12 02:00:00012159152022/01/12 06:00:0001215910002022/01/12 07:59:5501215920002022/01/12 07:59:57卡号卡号刷卡金
4、额刷卡金额刷卡时间刷卡时间01215910002022/01/12 08:00:00卡号卡号刷卡金额刷卡金额过去过去10秒内:刷卡次数秒内:刷卡次数|刷卡最刷卡最大金额大金额|最小金额最小金额|平均金额平均金额过去三小时内:刷卡次数过去三小时内:刷卡次数|刷卡刷卡最大金额最大金额|最小金额最小金额|平均金额平均金额01215910003|2000|1000|13334|2000|14|100301215910002022/01/12 08:00:0010s3h基于窗口聚合特征计算特征计算模型推理欺诈交易?欺诈交易?历史交易表历史交易表虚拟插入生成的特征生成的特征刷卡记录刷卡记录传统特征开发:离
5、线开发和线上服务分离,高成本投入实时特征计算线上服务线上预估服务实时特征特征平台特征平台Database/C+工程化团队离线特征计算离线开发线下模型训练离线特征数据科学家Python/SparkSQL计算逻辑一致性校验线上线下不一致性可能的原因工具能力的不一致性 需求沟通的认知差Account Balance线上应用线上应用current“account balance”离线开发离线开发“account balance”as of yesterday离线开发离线开发线上应用线上应用=0 2 1标准差=0 2(Bessels Correction)PythonMySQL标准差线上线下一致性校验带
6、来的高昂工程化落地成本高昂工程化落地成本对齐+校验线下开发线下开发线上服务线上服务两组 不同技能栈的开发人员投入两套 系统的开发、运营1.实时智能决策的工程化挑战实时智能决策的工程化挑战2.OpenMLDB 提供线上线下一致的实时特征计算提供线上线下一致的实时特征计算3.社区生态和案例分享社区生态和案例分享OpenMLDB 发展历程:从闭源走向开源开源前,跟随第四范式 先知 平台,在 100+场景 落地,覆盖超过 300个节点。开源后,以开放姿态积极拥抱社区开发者、整合开源生态,提供商业化定制和支持。过往5年网点流量预测理财个性化推荐 信用卡现金分期精准营销 营销获客风险管理 现金分期个性化推