当前位置:首页 > 报告详情

天穹OLAP:实时湖仓融合平台架构实践.pdf

上传人: 2*** 编号:135129 2023-07-09 20页 2.55MB

1、DataFunSummit2023天穹OLAP:实时湖仓融合架构实践演讲人:程广旭-腾讯-高级工程师为什么需要湖仓融合湖仓融合新架构未来展望及规划DataFunSummit2023为什么需要湖仓融合实时数仓 VS 数据湖对比项对比项实时数仓实时数仓数据湖数据湖架构存算一体/存算分离存算分离计算引擎自带计算引擎,一般为MPP架构依赖第三方计算引擎,如:spark、presto等存储引擎一般集成写入入口及具备完善的数据分片管理机制一般借助Flink等计算引擎写入数据查询性能优较优易用性好,系统自成一体,集成了写入/查询/集群管理等能力需要与其他组件配合使用成本高低性价比更好的查询性能带来了较高的成

2、本查询性能较优且存储成本更低数据湖:一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。实时数仓:指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。湖仓融合的意义 为什么要在湖上建仓数仓加速:基于数据湖的远程 IO 成本很高,且缺少一系列数仓加速的手段;早期的数据湖格式多样且不成熟,索引的支持不完善,查询性能有待提升;并且数据湖主要针对吞吐量的优化,关注低成本和高可靠,不适用于高性能的需求;虽然可以通过缓存解决一部分性能问题,但引入缓存也会带来数据一致性、查询性能不稳定等等问题实时分析:对于实时写入的流式数据

3、,传统的数据湖写入的实时性不够,在 Iceberg 或者 Hudi 的支持下可能能解决分钟级别的时效性,但是无法解决秒级时效性的问题高并发查询:对于高并发查询,不管是点查还是聚合类的查询,数仓是更擅长的 为什么要湖仓融合降本增效:简化技术架构,提升架构的易用性,并增强架构可靠性,降低运维成本统一数据:统一数据存储和输出,所有数据的口径都是一致的,基于相同的数据计算,保证数据的一致性数据治理:湖仓融合的数据底座统一了主数据和元数据,基于此才有可能做上层统的数据治理传统的实时湖仓一体架构优点:增量读取,实时性好,成本低相较MQ更加稳定性缺点:查询借助外部引擎,查询性能一般业务需要维护多个Flink

4、任务BinlogODSDWDDWSDataFunSummit2023湖仓融合新架构实时湖仓融合平台优点:接入简单,只需创建实时入库任务数据实时性更高,分钟级-秒级查询性能更优,亚秒级缺点:相较于iceberg等湖格式,支持的湖能力欠缺数据可能会存储多份,有一定的冗余注:SuperSQL是腾讯大数据自研的下一代大数据自适应计算平台。湖仓融合总体架构1数据实时写入到仓,并定时降冷到湖1数据实时入湖后,准实时导入到仓2数据实时双写入仓与入湖2冷热数据分区映射实时Table1p_20230303p_20230302p_20230228p_20230301p_20230227Table2p_202303

5、03p_20230302p_20230228p_20230301p_20230227TubePulsarFlink离线HiveicebergHudi数据接入实时数仓HiveIcebergHudi降冷入湖分区映射实时入仓入仓加速数据湖数据湖融合分析融合查询121双写入湖21实时入库 Pulsar数据源Pulsar数据源处理流程用户通过 client 向 FE 提交 pulsar routine load 任务FE 生成 pulsar routine load job,并将 job 拆分成 taskFE 将 task 分配到指定的 BE 上执行BE 将一个 task 视为普通的数据写入任务BE 完

6、成 task 执行后,向 FE 汇报FE 根据结果,继续生成后续新的 task,或者对失败的 task 进行重试FE 不断的产生新 task,从而做到数据不间断的导入背景背景:腾讯内部有大量的团队在使用 Pulsar,但SR只能通过kop插件消费pulsar中的数据,性能较差,亟需原生支持Pulsar数据,提升消费性能。处理流程:实时入库 Pulsar数据源消费性能集群消费峰值:165w/s单 consumer 消费能力:2.5w/s,52MB/s消费能力可通过扩展 partition/consumer 数量水平扩展数据降冷 创建降冷任务降冷任务降冷任务:新增降冷任务命令,并配置导出过程中需要

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了腾讯高级工程师程广旭在DataFunSummit2023上的演讲内容,主要讨论了实时湖仓融合架构的实践和未来展望。 湖仓融合架构的必要性主要体现在:1)数仓加速:数据湖的远程IO成本高,查询性能有待提升;2)实时分析:数据湖的实时性不足,无法满足秒级时效性需求;3)高并发查询:数仓在处理高并发查询方面更有优势。 湖仓融合的意义在于:1)降本增效:简化技术架构,提升易用性,降低运维成本;2)统一数据:保证数据一致性;3)数据治理:统一主数据和元数据,实现上层数据治理。 实时湖仓融合平台具有以下特点:1)接入简单;2)数据实时性更高;3)查询性能更优。但该架构也有不足之处,如支持的湖能力欠缺,数据可能会存储多份导致一定冗余。 湖仓融合总体架构包括:1)数据实时写入到仓,并定时降冷到湖;2)数据实时入湖后,准实时导入到仓。 腾讯内部大量使用Pulsar,但Pulsar的消费性能较差,需要原生支持Pulsar数据以提升性能。 未来展望及规划包括:1)分析型存储冷存储;2)SuperSQL定时调度热查询;3)冷热查询查询类型直接下推;4)数仓以模块化的方式嵌入,实现冷热数据快速查询处理。
"湖仓融合如何提升数据处理效率?" "实时湖仓融合架构的未来发展趋势是什么?" "湖仓融合在腾讯内部的实际应用效果如何?"
客服
商务合作
小程序
服务号
折叠