1、快时应可观测挑战 及应对实践演讲:王辉快/移动端数据架构负责个介绍王辉 快/移动端数据架构负责 团队主要负责快的埋点体系、研发数仓等可观测基础设施 在互联业从事开发作多年,开发过前端、后端、客户端、数据,也带过业务、架构等不同类型的团队01020304录超路径带来的挑战可观测体系构建路径归因实践总结与展望01时 短内容=超路径超路径带来的挑战背景:链路数据基建,严重影响了决策效率、实验效率、排障效率缺数据应浅径乱 流量路径摸底看不清 订单仅能做到80%精确归因 埋点发版放量3周起步 万亿级别表关联,慢!业务间数据打架 前后端数据不通 个实验埋点需要个 平均时级 故障处置(变更引起)P4+故障4
2、 起,P5级1 起 约80%的故障来于变更,变更数据挖掘 分析师说,社区算法说,客户端开发者说,为埋点、算法特征、技术埋点等三类埋点都存在严重问题 问题涉及事业部(L5)级别组织 8+,业务线(L4)级别组织 20+流量归因问题案例:电商希望能看到精确流量路径、流量来源,需要推动全站基建 精确描述户路径 万亿级数据量避免关联 是否可以动化、平台化降低埋点成本问题洞察客户:产品经理、分析师 算法归因问题案例:搜索为将策略信息100%透传到所有下游叶结点,需要推动全站基建 策略需要统标准 需要兼容多策略 需要SDK来保证正确性问题洞察客户:推荐算法 算法归因问题案例:算法架构团队希望不再被埋点bl
3、ock实验 要100%覆盖存量、增量 策略参数要有扩展弹性 全链路要打通 后端临 M*N 复杂度 是否可以动化 实时性与成本的平衡问题洞察客户:推荐算法 故障归因问题案例:未能及时定位的变更故障,影响持续上升 损效率取决于定位效率 变更导致故障占 变更数据、故障数据如何关联?问题洞察客户:客户端开发整体解题思路对泛的跨领域问题,需要有套完整的打法来保障落地效果。Todo:如何解决?先框架,再逐个击破02组织、规范、流程+平台化可观测体系构建组织规范建设通过横向组织实现多领域协同;通过规范化建设和治理来达成底层共识;通过流程保障防劣化。埋点委员会界定关键问题全链路规范协同建设质量&稳定性保障埋点
4、SDK埋点Server算法特征流量数仓数据产品分析师规范化建设及治理界定责任边界规范公参&私参存量治理&增量收为埋点规范算法信号规范异常事件规范变更管控规范公参规范业务公参规范流程建设规范有卡跨组织协同质量&稳定性需求评审技术案评审动化测试动化校验验收机制故障处置机制平台化建设通过端到端平台建设,实现全链路联动、动化、助化。埋点需求、验收流程 路径助埋点 埋点动化校验 基础质量监控 埋点SDK 标准化流量数仓 流量拆分模型 实验体系模型 基础流量监控流量数仓 实时特征规范/管理 全站特征加 算法实验数据管线 全站流量分发校准实时特征平台 PB规范管理 统栈模型 统透传机制 路径数据校验埋点平台
5、流量产品端架构流量架构算法架构03流量、算法、稳定性三个领域的归因架构探索路径归因实践 流量归因:路径助染(URT)案要点 通过圈选来注册染点(效)染信息基于后端配置动态提取(统机制)在公参中携带路径信息(需关联)个性化场景 跨技术栈:统命周期 窗半屏:统框架业务主 流量归因:染(URT)质量检测机制要点 原理:通过志对埋点进交叉验证 端上质检SDK 2M mmap存储精简志 可配置场景进路径还原、检测 算法归因:内容策略(STID)通道规范要点 趟班多个座位(多策略)每个座位规格致(统规范)次实施多通道复 算法归因:内容策略(STID)通道 与 效率提升要点 服务端通过SDK实现内容策略透传
6、 客户端SDK与业务联合实现实体参数的动态提取 服务端SDK、客户端SDK、络SDK联合升级实现透传能及圈选式动态扩展能 配置化的极简实时通道 故障归因:变更数据链路要点 原理:变更群与故障群的强相关性 强时间相关性,带来了时效性 AB、开关、危运营系统全覆盖 三端归因难点在于服务端变更不是基于群是基于服务器节点只能依靠Trace 其他有效假设:时间起点相关性、趋势相关性、领域相关性 故障归因:变更归因架构要点 原理:变更群与故障群的强相关性 强时间相关性,带来了时效性 AB