1、2025.03.28周鸿 抖集团 实时数据专家Apache Paimon数据湖在抖集团短视频场景运 实时架构在业务场景运&挑战 数据湖元数据建设治理 x AI融合 当前探索及未来规划录实时架构在业务场景运&挑战流+批流批体湖仓体存储ETL:流(Kafka)、批各套(Hive)在线分析:新存储(clickhouse/doris)ETL:流(Kafka)、批(Hive)基本各套 在线分析:新存储(clickhouse/doris)ETL:可完全统(Paimon)在线分析:可完全统(Paimon)计算适应多种计算引擎统计算引擎可统、可适应(满现实)成本(末端/过程存储冗余)中(末端/过程存储冗余)低
2、时效中运维计算两套运维,成本计算分别运维,成本可统运维治理存储分别治理,成本存储分别治理,成本可统治理验数流需要dump到表,时级时效验证,成本+难度流需要dump到表,时级时效验证,成本+难度ETL任何节点可分析、验数质量端到端法保障Exactly-Once。需要下游特殊处理端到端法保障Exactly-Once。需要下游特殊处理持端到端Exactly-Once changelog增量计算需要单独设计需要单独设计原持Partial Update/Agg 增量计算模式 全位的湖仓体架构(架构图)超实时维表,带来关联质量与效率问题实时架构在业务场景运&挑战 多流联合指标,带来的不致性问题OLAP延
3、迟正常延迟延迟值/正常值=结果致性丢失超(部分导/不完整)可能延迟(机房同步等原因)维表查询OLAP未关联率2-3%维表数据缺失/不准确DWSDWDODSminiBatch不公平 通过维表服务,数据湖统解决超维表难题实时架构在业务场景运&挑战DWDODS维表服务cache计算层OLAP 消费层DIM采集层DWS/ADM/APP(2%+)(96%+)(1%+)实时架构在业务场景运&挑战强切分窗对 多流联合指标,通过Flink来解不致性问题miniBatch统多源基于event_time的watermark的miniBatch结束时间CalcCalcGroup AggGroup AggEpoch按
4、照Epoch微批计算Sink按照Epoch对输出限流状态过,进source限流Source实时架构在业务场景运&挑战 多流联合指标,通过RisingWave来解不致性问题SourceMaterialized ViewWatermarkGroup Pre AggMaterialized ViewGroup Global AggSinkDynamic Filter数据湖元建设与治理 现代元数据痛点及不 元数据集成 x AI 融合数据湖元建设与治理 元数据对于数据湖缺失:有分版本等特性信息 更丰富的上下游关系:湖可被流、批读写;可被不同时效读;可被物化任务成 元数据与Metrics天割裂:缺少全链路
5、异常感知,以及全位Metrics统管理与查阅 多机房、多引擎、缘全景:前对于缘查询仅限于层层为观察,缺少多深度/关系多元化检索 缘+元数据运不:受限于多元化查询难度较,运受限 现代元数据痛点及不数据湖元建设与治理User Query/Auto Query“在xx业务场景下,需要研发xx指标,该如何做?”,“我的任务,考虑多深度缘情况下,是否包含xxx数据”Documents Vector/KNN Graph/Text-Keyword Graph/APIGraph RetrievalText2GQL Retrieval 全图游、图剪枝、分析判别、减少噪声Vector/API RetrievalG
6、enerationContextPrompt+1 select xxx 2select yyy 3select zzzLLMMeta+Lineage+MetricsAnswer select xxxxLLM Agent Is the answer relevantFinal Answer/Action select xxxx/call APIChatBotMetricTableTaskTableGravitinoX 现代元数据集成+AI 融合当前探索及未来规划 基于LLM产效