1、ClickHouse在自助分析场景中的探索及实践|王鹏哲 转转 大数据平台&实时计算架构师转转二手交易网2|CONTENTS转转自助分析场景下转转自助分析场景下OLAP选型选型01/高斯平台自助分析场景高斯平台自助分析场景02/ClickHouse优化实践优化实践03/ClickHouse未来在转转未来在转转的规划与展望的规划与展望04/让人们享受闲置交易的快乐,让世界因流转更可持续转转二手交易网3|转转自助分析场景下转转自助分析场景下OLAP选型选型转转二手交易网4|OLAP选型背景选型背景行为行为数据数据查询扫描数据量大,精确去重/近似去重/分组计算量大。即席查询即席查询传统离线数仓经过数
2、仓分层和汇总层通用指标预计算,但是无法满足用户个性化报表需求。稳定快速稳定快速保证高可用,支持任意指标、任意维度并秒级给出反馈。转转二手交易网5|性能性能数据量级:亿级/百亿级/千亿级数据时效性:毫秒级/秒级/分钟级灵活性灵活性查询场景:聚合结果/明细数据数据链路:离线/实时查询支撑:高并发、即席查询复杂性复杂性引擎架构:门槛低、运维简单、扩展性强OLAP选型考量选型考量转转二手交易网6|OLAP引擎选型引擎选型OLAP引擎引擎技术技术优点优点缺点缺点自身存储自身存储KylinMOLAP,完全预聚合立方体1.亚秒级的查询速度,同时支持高并发2.友好的web界面以管理,监控和使用立方体1.维度较
3、多时,交叉度太深会导致预计算结果爆炸式膨胀2.灵活性较弱,不支持ad-hoc查询否Druid位图索引查找、字符串编码,预聚合技术1.实时数据摄入2.高可用、高性能、高并发1.OLAP场景支持有限,JOIN不成熟2.无法支持精确去重是ImpalaMPP系统,SQL On Hadoop1.计算基于内存,支持使用磁盘进行连接和聚合2.支持窗口函数、UDF1.对于内存依赖较大;完全依赖于Hive2.每当新的文件被添加到HDFS,该表需要被刷新否PrestoMPP系统1.跨数据源的联邦查询2.支持多表 join,支持复杂查询1.多张大表关联操作容易OOM2.并发能力不足否转转二手交易网7|OLAP引擎选
4、型引擎选型OLAP引擎引擎技术技术优点优点缺点缺点自身存储自身存储ClickHouse明细动态聚合查询,物化视图1.单机性能彪悍2.列存储、向量化引擎3.可保留明细数据1.没有完整的事务支持2.分布式表join能力较弱是DorisMPP分布式架构1.运维简单,支持在线扩缩容2.支持事务和幂等性导数,物化视图自动聚合,查询自动路由1.版本迭代更新较快,成熟度不足2.大规模数据的复杂ETL容易内存不足是转转二手交易网8|ClickHouse是什么是什么0102030405完备的DBMS功能;较为完善的SQL支持。列式存储和数据压缩;支持索引。向量化引擎与SIMD提高了CPU利用率,多核多节点并行。
5、亚秒级查询响应。支持数据复制和数据完整性。多样化的表引擎。ClickHouse是一个面向实时联机分析处理(OLAP)的基于列存储的开源分析引擎。Yandex(俄罗斯最大的搜索引擎)于2016年6月15日开源;开发语言为C+;是一款PB级的交互式分析引擎。转转二手交易网9|01020304ClickHouse应用场景应用场景交互式报表交互式报表AB TEST用户画像系统用户画像系统监控系统监控系统转转二手交易网10|高斯平台自助分析场景转转二手交易网11|系统介绍系统介绍 埋点数据管理:埋点元数据纳管,埋点质量统一监控。自助分析:基于业务特点和多部门复合需求,提供多维度、多指标的交叉分析能力,全
6、面支撑日常数据分析需求。GAOS高斯平台高斯平台埋点埋点管理管理自助自助分析分析画像画像标签标签ABTEST转转二手交易网12|高斯平台高斯平台-系统架构系统架构数据接入数据接入 离线数据:SeaTunnel+调度平台 实时数据:Flink ClickHouseSink数据服务数据服务 对外:统一封装服务,外部调用 对内:提供客户端工具数据数据清洗清洗 离线数据:Hive ETL 实时数据:Flink+维表关联转转二手交易网13|高斯平台高斯平台-高可用高可用架构架构优势优势由ReplicatedMergeTree表引擎管理数据副本(依赖Zookeeper)。劣势劣势集群配置比较复杂,维护成本