王云霏-探索Lakehouse架构极致查询性能.pdf

编号:627165 PDF 34页 3.06MB 下载积分:VIP专享
下载报告请您先登录!

王云霏-探索Lakehouse架构极致查询性能.pdf

1、王云霏目录WHY LAKEHOUSE?1.数据类型多样化2.成本与扩展性3.高级数据分析(AI)问题与挑战核心优势1.数据质量2.查询性能3.事务支持1.复杂的ETL链路,2.降低时效性3.数据一致性,冗余存储问题与挑战核心优势1.统一入湖2.开放访问BI、ReportsAI、MLLakehouse的业务价值One data,all analytics1.开放统一的数据存储,Single source of truth2.一份数据,多样化的Workload,服务企业AI、BI的数据应用3.原生存算分离,弹性计算实现极高性价比BatchStreamAnalyticsMetadata、Cachin

2、g、Index dataHOW LAKEHOUSE?StorageCatalogEngineObject Storage 作为统一存储底座开放的数据存储格式数据以 Catalog 形式向上层提供统一的数据访问控制、数据治理计算引擎解决各个场景的需求追求性价比BI、ReportAI、ML数据工程师无需维护复杂 ETL Pipeline数据分析师实时高效的在数据湖上进行探索分析数据科学家直接访问开放数据,构建 AI 应用企业经营/管理者简单高效的数据分析驱动企业经营决策StarRocks BEStarRocks BEStarRocks BE架构简单,性能强悍小红书1.无需维护额外的 ETL pip

3、eline,2.存储成本下降 50%3.查询性能提升3倍,P90 延时降到10s量级微信离线/近实时场景实时场景数据直接入Iceberg,时效性10分钟级,查询响应亚秒级数据入StarRocks,将冷至Iceberg,数据新鲜度秒级HOW ABOUT LAKEHOUSE?CBO优化器向量化执行引擎MPP执行框架CBO优化器向量化引擎MPP执行框架千军易得,良将难求将士用命,以一当三韩信点兵,多多益善metadata解析开销大缺少统计信息冷数据IO访问开销大Cache不够smart字符串处理开销大文件解析开销大极高并发极低延迟痛点:元数据解析开销大元数据规模较大时:Plan阶段耗时过长,对FE节

4、点的CPU和内存依赖过重 Iceberg Job Planing耗时显著增加Distributed MetaData Plan 消除FE性能瓶颈 元数据解析性能提升n倍痛点:Data Lake统计信息不足导致plan严重恶化查询触发统计信息收集OptimizerConnectorTableCacheStatscollectStatisticsPendingTaskQueueRunningTaskQueueget table statisticsinvalid outdated cacheadd pending task痛点:冷数据IO访问开销大针对AWS客户端进行优化,可以支持所有S3兼容的对

5、象存储数据copy开销网络客户端收发开销zero-copy poco clientpoco 连接池network bandwidthcpu usagedefaultpocodefaultpocoimprovement:13%+11%痛点:Cache很好,但是不够smart访问频次不高,但是延迟敏感 手动预热 周期预热痛点:Cache很好,但是不够smart 磁盘已达瓶颈,远端访问也许更快ExecutorLocal CacheOSS/Hdfsbusyadaptive io IO自适应insert into blackhole()select*from lineitem;353GB-188G远端访

6、问,38s优化前 88s痛点:Cache很好,但是不够smart 弹性场景,cache miss引起的性能抖动 无需额外硬件成本,节点间缓存共享 降低增删节点时延时抖动 请求自适应,改善集群资源瓶颈Cache SharingcacheBEcacheBEcacheBEcacheBEcacheBEOrigin NodesNew Nodesread cacheread cacheS3/HDFSQueries痛点:字符串执行效率低低基数优化难以向量化内存占用高传递开销大数据分析场景的字符串80%是低基数字符串select sum(lo_revenue)from

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王云霏-探索Lakehouse架构极致查询性能.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠