当前位置:首页 > 报告详情

01Hudi_Presto 在 News Break 数据平台的尝试--关立胜.pdf

上传人: 2*** 编号:122288 2023-04-03 32页 5.34MB

报告标签

Hudi_Presto技术实践
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了NewsBreak公司如何使用现代数据平台,实现快速数据摄取和基于统一架构的查询。公司采用了Hudi技术,通过多出口和先连接后摄取的策略,提高了性能和数据处理效率。同时,他们还使用HMS和Presto/Spark进行数据查询,实现了每小时数千次的查询操作。为了优化性能,NewsBreak团队采取了一系列技巧,如设置记录大小估计、使用小时分区、以及特定版本的Presto等。此外,他们还开发了一套工作流程和模式训练管道,以支持 schema 演进和自动化更新。通过这些措施,NewsBreak能够在15分钟内将数据从Legacy CDH迁移到AWS,并且实现了每月的数据写入量达到30TB。
"Hudi在NewsBreak的应用如何提高了数据处理效率?" "Presto在NewsBreak中的查询性能优化有哪些亮点?" "NewsBreak如何实现统一架构下的数据快速摄取和查询?"
客服
商务合作
小程序
服务号
折叠