1、湖仓一体在腾讯的落地实践演讲人:邵赛赛腾讯大数据实时湖仓团队负责人,负责流、批、湖等项目Apache Member,Apache Spark PMC Member曾就职于Hortonworks,Intel,多年开源大数据从业经验个人介绍个人介绍目录目录1 1湖仓一体技术诞生的背景和现状湖仓一体技术诞生的背景和现状2 2湖仓一体技术现存的问题3 3腾讯在湖仓一体上的工作4 4后续的规划湖仓的演进(1)湖仓的演进(1)Structured DataStructured DataBIBIReportsReportsData WarehouseData Warehouse数据仓库(90s)数据仓库(9
2、0s)优点:优点:高效处理结构化数据缺点:缺点:无法处理半/非结构化数据,无法支持多计算范式Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured DataBIBIReportsReportsData WarehouseData Warehouse数据科学数据科学机器学习机器学习Data LakeData Lake优点:优点:支持各类型数据存储、分析缺点:缺点:缺乏数仓的高阶特性数据湖 数仓两层架构数据湖 数仓两层架构(10s)(10s)湖仓的演进(2)湖仓的演进(2)仓仓湖湖流流A
3、d-hocAd-hocBatchBatchStreamingStreamingBIBIReportsReports数据科学数据科学机器学习机器学习仓、湖、流-孤岛式架构仓、湖、流-孤岛式架构(15s)(15s)一致性一致性保持数据湖和数仓数据一致性非常困难且耗费成本受限的进阶分析受限的进阶分析基于海量数据的进阶分析非常低效(数据出仓)数据成本数据成本多份数据拷贝(仓、湖、流)带来了加倍的成本解决之道 湖仓一解决之道 湖仓一体体Structured,Semi-structured&Unstructured DataStructured,Semi-structured&Unstructured D
4、ataB BI IReportsReports数据科学数据科学机器学习机器学习元数据、缓存、索引层元数据、缓存、索引层Data LakeData Lake1.湖上可靠的数据管理湖上可靠的数据管理2.支持机器学习和数据科支持机器学习和数据科学学3.最先进的SQL性能最先进的SQL性能一种开放的,高性能一种开放的,高性能的数据组织格式的数据组织格式一套开放、标准的API一套开放、标准的API一个极致优化的执行一个极致优化的执行引擎引擎湖仓一体架构(20s)湖仓一体架构(20s)湖仓一体技术湖仓一体技术UberUberNetflixNetflixDatabricksDatabricks构建于存储格式
5、之上的数据组织方式数据组织方式提供ACID能力,提供一定的事务特性和并发能力事务特性和并发能力提供行级别的数据修改能力行级别的数据修改能力具备表结构进化能力表结构进化能力优化数据入湖流程优化数据入湖流程提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL提供Upsert能力,可以极大地缩小数据入湖延迟支持更多的分析引擎支持更多的分析引擎优秀的内核抽象使之不绑定于特定引擎,目前在支持的有Spark,Flink,Presto,Hive提供了java native API,不用特定引擎也可以访问表统一数据存储和灵活的文件统一数据存储和灵活的文件组织组织批任务和流任务可
6、以使用相同的存储模型,数据不再孤立。支持隐藏分区和分区进化,方便业务进行数据分区策略更新 支持Parquet,ORC,Avro行存列存兼顾增量读取处理能力增量读取处理能力支持通过流式方式读取增量数据Spark Structured Streaming 支持Flink Table Source支持3种主流开源技术3种主流开源技术湖仓一体技术的优势湖仓一体技术的优势2021年Lakehouse技术首次进入Gartner成熟度曲线2021年Lakehouse技术首次进入Gartner成熟度曲线复杂的增量入库方案来保证exactly-once和数据去重利用HDFS rename操作的原子性和复杂的命名