1、货拉拉基于DORIS的OLAP体系演进及建设方法杨秋吉 大数据引擎负责人张斌 大数据工程师|0101背景介绍背景介绍0303OLAP体系演进(下)体系演进(下)0202OLAP体系演进(上)体系演进(上)0404总结思考与后续规划总结思考与后续规划目录目录 CONTENT|背景介绍01|货拉拉介绍货拉拉介绍|352352国内城市5858万万月活司机760760万万月活用户3+3+IDC1000+1000+机器数2 20PB+0PB+存储量20K+20K+日均任务数8+8+业务线货拉拉货拉拉-大数据大数据|大数据大数据基础平台基础平台基础基础层层离线计算实时计算资源管理大数据存储OLAP计算基础
2、元数据(Hivemeta)实时数据接入埋点数据接入数据对账数据链路监控离线数据接入数据数据接入接入平台平台接入接入层层数据门户数据门户权限权限中心中心个人个人中心中心内容内容管理管理知识库知识库建议建议反馈反馈数据门户数据门户权限中心个人中心内容管理知识库建议反馈门户首页平台平台层层&数数仓仓数据研发平台数据研发平台飞流实时开发BQ数据查询IDP数据集成开发数据仓库数据仓库DWDWB B基础整合层基础整合层DWDWT T明细数据层明细数据层数据湖接入(数据湖接入(T+1T+1、近实时、实时)、近实时、实时)DWSDWS公共汇总服务层公共汇总服务层用户集市用户集市司机集市司机集市主数据库主数据库
3、数据治理平台数据治理平台大数据安全管理元数据管理数据建表管理数据质量管理数据工具箱数据工具箱自助分析自助分析可视化大屏可视化大屏数据服务工具数据服务工具快捷分析快速报表数据智能支撑工具数据智能支撑工具服务服务层层预警/告警监控多维分析固定报表AB Test特征平台大数据分析平台大数据分析平台数据应用支撑服务工具数据应用支撑服务工具数据工具箱自助分析可视化指标库管理数据上报固定报表用户画像数据云服务大数据分析平台辅助决策类应用辅助决策类应用赋能业务类应用赋能业务类应用应用应用层层智能营销智能广告投放实时报表鹰眼监控经营分析用户分析数据仓库数据仓库ODS贴源数据层DWS公共汇总服务层DIMDIMD
4、WD明细数据层DWB明细数据整合层用户集市用户集市司机集市司机集市集市1集市2指标库AI平台基础层基础层接入层接入层平台层平台层&数仓数仓服务层服务层应用层应用层辅助决策类应用辅助决策类应用赋能业务类应用赋能业务类应用货拉拉货拉拉-大数据大数据|OLAP体系演进(上)02|OLAP OLAP 演进简介演进简介|2021 H22021 H2支撑业务支撑业务:罗盘(实时智能决策系统,支持实时分析、诊断和策略以及复盘)需求特点需求特点:数据实时导入、自由组合维度、实时聚合分析引入引擎引入引擎:Druid,提供单表预聚合查询能力OLAP 1.0OLAP 1.0:孕育期:孕育期2021 H12021 H
5、1OLAP 2.0OLAP 2.0:完善期:完善期20222022OLAP 3.0OLAP 3.0:成熟期:成熟期支撑业务支撑业务:智能定位工具(基于埋点数据提供司机和订单的汇总和明细数据查询功能)需求特点需求特点:单表明细查询和聚合分析、海量埋点数据实时导入引入引擎引入引擎:ClickHouse,提供单表明细查询且有数据高压缩率支撑业务支撑业务:AB Test和实时数仓需求特点需求特点:多数据源(试验埋点数据、订单数据、用户数据、司机数据)关联分析引入引擎引入引擎:Doris,提供多张大表关联分析能力OLAP 1.0-OLAP 1.0-业务场景业务场景|存在问题存在问题1.Mysql存储瓶颈
6、2.开发成本高、效率低3.部分聚合需求不支持 (如长时间窗口聚合分析)OLAP 1.0-OLAP 1.0-需求分析需求分析|决定选择使用OLAP引擎OLAP 1.0-OLAP 1.0-解决思路解决思路|上生产稳定性保障POC技术调研1.业务需求理解2.结合业界实践对比 OLAP引擎1.语法功能验证2.查询性能验证3.数据质量验证1.服务稳定性保障2.数据链路稳定性保障1.构建实时/离线导数链路2.业务双跑验证OLAP 1.0-OLAP 1.0-技术调研技术调研|OLAP引擎数据导入延迟实时数据导入语义数据查询延迟支持多维分析SQL支持程度 支持明细查询JOIN支持度支持复杂数据类型集群成本可控