周鸿-Apache Paimon数据湖在抖音集团短视频场景运用.pdf

编号:624544 PDF 13页 2.68MB 下载积分:VIP专享
下载报告请您先登录!

周鸿-Apache Paimon数据湖在抖音集团短视频场景运用.pdf

1、2025.03.28周鸿 抖集团 实时数据专家Apache Paimon数据湖在抖集团短视频场景运 实时架构在业务场景运&挑战 数据湖元数据建设治理 x AI融合 当前探索及未来规划录实时架构在业务场景运&挑战流+批流批体湖仓体存储ETL:流(Kafka)、批各套(Hive)在线分析:新存储(clickhouse/doris)ETL:流(Kafka)、批(Hive)基本各套 在线分析:新存储(clickhouse/doris)ETL:可完全统(Paimon)在线分析:可完全统(Paimon)计算适应多种计算引擎统计算引擎可统、可适应(满现实)成本(末端/过程存储冗余)中(末端/过程存储冗余)低

2、时效中运维计算两套运维,成本计算分别运维,成本可统运维治理存储分别治理,成本存储分别治理,成本可统治理验数流需要dump到表,时级时效验证,成本+难度流需要dump到表,时级时效验证,成本+难度ETL任何节点可分析、验数质量端到端法保障Exactly-Once。需要下游特殊处理端到端法保障Exactly-Once。需要下游特殊处理持端到端Exactly-Once changelog增量计算需要单独设计需要单独设计原持Partial Update/Agg 增量计算模式 全位的湖仓体架构(架构图)超实时维表,带来关联质量与效率问题实时架构在业务场景运&挑战 多流联合指标,带来的不致性问题OLAP延

3、迟正常延迟延迟值/正常值=结果致性丢失超(部分导/不完整)可能延迟(机房同步等原因)维表查询OLAP未关联率2-3%维表数据缺失/不准确DWSDWDODSminiBatch不公平 通过维表服务,数据湖统解决超维表难题实时架构在业务场景运&挑战DWDODS维表服务cache计算层OLAP 消费层DIM采集层DWS/ADM/APP(2%+)(96%+)(1%+)实时架构在业务场景运&挑战强切分窗对 多流联合指标,通过Flink来解不致性问题miniBatch统多源基于event_time的watermark的miniBatch结束时间CalcCalcGroup AggGroup AggEpoch按

4、照Epoch微批计算Sink按照Epoch对输出限流状态过,进source限流Source实时架构在业务场景运&挑战 多流联合指标,通过RisingWave来解不致性问题SourceMaterialized ViewWatermarkGroup Pre AggMaterialized ViewGroup Global AggSinkDynamic Filter数据湖元建设与治理 现代元数据痛点及不 元数据集成 x AI 融合数据湖元建设与治理 元数据对于数据湖缺失:有分版本等特性信息 更丰富的上下游关系:湖可被流、批读写;可被不同时效读;可被物化任务成 元数据与Metrics天割裂:缺少全链路

5、异常感知,以及全位Metrics统管理与查阅 多机房、多引擎、缘全景:前对于缘查询仅限于层层为观察,缺少多深度/关系多元化检索 缘+元数据运不:受限于多元化查询难度较,运受限 现代元数据痛点及不数据湖元建设与治理User Query/Auto Query“在xx业务场景下,需要研发xx指标,该如何做?”,“我的任务,考虑多深度缘情况下,是否包含xxx数据”Documents Vector/KNN Graph/Text-Keyword Graph/APIGraph RetrievalText2GQL Retrieval 全图游、图剪枝、分析判别、减少噪声Vector/API RetrievalG

6、enerationContextPrompt+1 select xxx 2select yyy 3select zzzLLMMeta+Lineage+MetricsAnswer select xxxxLLM Agent Is the answer relevantFinal Answer/Action select xxxx/call APIChatBotMetricTableTaskTableGravitinoX 现代元数据集成+AI 融合当前探索及未来规划 基于LLM产效

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(周鸿-Apache Paimon数据湖在抖音集团短视频场景运用.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠