当前位置:首页 > 报告详情

基于Apache Iceberg的湖原生数仓Arctic.pptx

上传人: 2*** 编号:121861 2023-03-29 24页 7.46MB

报告标签

湖原生数仓Arctic

1、,基于 Apache Iceberg 的湖原生数仓 Arctic,演讲人:周劲松网易平台开发专家,2023,什么是湖原生数仓,如何实现湖原生数仓,实践案例,总结与愿景,目录,什么是湖原生数仓,数据开发现状,传统数据湖架构,成本高昂数据冗余系统运维开销任务开发数据质量差数据延迟高口径不统一,湖原生数仓愿景,开源数据湖三剑客,Aimed for structured dataOperation transactionalSQL extensionsIncremental/stream processing,ACID,MVCC,Update/delete,Merge into,Time travel

2、,rollback,开源 Table format 的不足,lakehouse,lakehouse,lakehouse,所读即所写Deltalake/iceberg 是 table format,是元数据封装CDC 数据使用 MERGE INTO 合并存量数据流式摄取带来海量小文件问题,需要用户 optimize需要用户自己调用 optimize 来排序,实时能力不足基于 Lakehouse 的流计算延迟在分钟级别需要引入消息队列实现毫秒/秒级流计算需要用户自己保障数据一致性,如何实现湖原生数仓,湖仓管理系统-Arctic,Arctic 是一个开放式架构下的湖仓管理系统,在开放的数据湖格式之上

3、,Arctic 提供更多面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。,Multiple Formats,ACID 事务Schema evolutionHidden PartitionTime travel and Rollback,更强的主键约束基于 auto-bucket 的更强 OLAP 性能毫秒级的 data pipeline事务冲突解决机制更灵活的合并策略,Auto-bucket File Index,change file,base file,Key:11010011,94M,change node:11,12M,base node:111,82M,base n

4、ode:011,96M,108M,Snphot id:1000,base node,change node,000,001,111,0,1,0,1,0,1,0,1,0,1,。,011,Self-Optimizing,能力合并小文件合并冗余文件快照过期孤儿文件清理特性自动、异步与透明资源隔离与共享灵活可扩展的部署方式,Minor Optimizing,合并小文件条件:小文件数量输入:segment file 16 MB转化 Delete file条件:equality delete file 数量输入:equality delete file输出:positional delete file,M

5、ajor/Full Optimizing,Major optimizing条件:delete file 过大输入:data file+delete file输出:data fileFull optimizing条件:周期输入:data file+delete file输出:ordered data file,Lake Native Data Warehouse 性能,Find more:https:/,实践案例,网易云音乐推荐流批统一,网易有道实时报表 Doris 替换,实时报表,Flink,推荐系统,Spark,Spark,实时报表,Flink,推荐系统,Trino/Spark,湖原生数仓的

6、价值,降本提效消除数据孤岛带来流批一体的效果与数据工具无缝集成,总结与愿景,Lakehouse VS Lake Native Data Warehouse,Find more:https:/,LakehouseACID 保障SQL 增强支持流计算存算分离格式开放,Lake Native Data Warehouse 数据自优化约束与索引开箱即用的管理功能标准化度量数据安全,Enhancement,未来规划,性能优化持续 z-order 引入 LSM 结构优化 optimizi

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了基于Apache Iceberg的湖原生数仓Arctic,由网易平台开发专家周劲松演讲。湖原生数仓致力于解决传统数据湖架构中存在的成本高昂、数据冗余、系统运维开销大、数据质量差等问题。Arctic是开放式架构下的湖仓管理系统,提供了面向流和更新场景的优化,以及一套可插拔的数据自优化机制和管理服务。湖原生数仓与数据工具无缝集成,能降低成本、提高效率、消除数据孤岛,并带来流批一体的效果。未来规划包括性能优化、持续z-order、引入LSM结构优化写放大问题,以及增强湖原生数仓的功能等。
什么是湖原生数仓及其优势? 湖原生数仓如何实现数据自优化? 网易Arctic在湖仓管理中的实践案例有哪些?
客服
商务合作
小程序
服务号
折叠