1、火花思维数据分析体系火花思维数据分析体系建设和实战分享建设和实战分享DataFun,2024分享分享内容内容痛在痛在哪里哪里自研系统的局限性方案方案选型选型为什么我们选择了火山引擎运营策略运营策略如何将工具潜力变成业务能力未来未来展望展望大模型时代的数据分析长什么样?痛在痛在哪里哪里自研系统的自研系统的局限性局限性前端能力不足,前端能力不足,v1未实现未实现实时交互式分析,实时交互式分析,选择了保存选择了保存SQL为图表的为图表的MVP方案方案限制了只有会SQL的分析师才能创建和修改图表,降低了响应速度技技术术架构上选择了架构上选择了presto+redis缓存缓存这个架构不支持高性能维度表查
2、询,P95达到30秒以上,使用体验较差数据结构上选择了一个可视化图表对应一个数据结构上选择了一个可视化图表对应一个SQL(或者一个(或者一个物化视图)物化视图)复用性差,例如日表、周表、月表得维护3段SQLBI系统必须要会写系统必须要会写SQL才能做分析才能做分析以页面以页面ID和行为和行为ID作为最细粒度,导致点位作为最细粒度,导致点位爆炸爆炸据称抖音app的点位数量在6000个左右,火花点位在1w以上没有自助测试验证机制,拉长了协作链条没有自助测试验证机制,拉长了协作链条产品经理和分析师不能参与测试环境验证,而QA无法验证埋点的分析意图,特别是某些关键属性的错漏缺乏交互式分析机制,只能写缺
3、乏交互式分析机制,只能写SQL串联埋点串联埋点叠加两个问题,生产效率很低,分析师特别不愿意去分析行为日志。行为日志系统的行为日志系统的分析效率分析效率低下低下2个产品,个产品,2前端前端3后端后端2测试的产研团队测试的产研团队给旧系统打补丁成本太高开发全新系统人力又不足自研团队的自研团队的”鸡肋鸡肋”处境处境为什么选择火山为什么选择火山引擎引擎数据数据预处理预处理接入数据源种类接入数据源种类:比superset丰富、与FineBI相似,飞书生态加分调度系统调度系统:选型时未认真比较的组件。要考虑和调度系统对接和批量重跑可视化建模可视化建模:独特优势,对于非分析师非常友好。可视化可视化分析分析图
4、表类型图表类型:丰富度不如superset,但是常见图表都有配置格式自定义程度格式自定义程度:表格格式化能力不如FineBI,但是远强于superset上卷上卷/下钻下钻:与FineBI和superset相似查询性能查询性能:同等配置下查询性能最好,但是用户直观体验相差无几辅助分析辅助分析:选型时未认真比较的组件。表格的汇总/同环比计算高频使用智能归因智能归因分析分析火山引擎独门绝技,当时选型的决定性因素。对于指标的异动,利用同一个数据集里维度进行自动归因分析,并按照维度变量的差异度进行排序对于加法指标(DAU),几乎替代分析师工作对于乘法指标(平均用时),极大节约分析师时间对于除法指标(转化
5、率),只有参考意义BI系统系统归因分析(归因分析(加法)加法)归因分析(归因分析(乘法)乘法)可视化可视化分析分析常用行为分析组件常用行为分析组件:与神策差不多单人细查与分群分析单人细查与分群分析:与神策差不多固化套件固化套件:逊于神策的行业模版数据数据治理治理埋点管理平台埋点管理平台:神策自身不带管理平台,不具备治理能力 神策生态中有三方平台,提供可视化点位管理可视化测试环境可视化测试环境:与神策差不多点位生命周期管理点位生命周期管理:火山独特功能,但是实际使用价值不是很大AB Test系统系统动态分流系统(多臂老虎机),在国内生态里只有火山引擎提供该功能。这是当时选型的决定性因素简而言之,
6、动态分流下,实验组和对照组的流量分配比例不固定,如果实验组效果好,会自动扩量;如果效果不好,会自动缩量。这样一方面可以保护业务结果,降低实验风险;另一方面节约实验时间,特别有利于小流量实验行为行为数据分析系统数据分析系统动态实验动态实验支持小流量增长支持小流量增长尝试尝试静态实验动态实验有点小贵有点小贵 但很好用但很好用运营策略运营策略如何将工具潜力变成业务能力数据分析产品是一个需求驱动的内容平台数据分析产品是一个需求驱动的内容平台对于专业数据分析人员,对于专业数据分析人员,提高生产效率提高生产效率主要靠系统本身的