《A2--王森林--Data Warebase:构建AI 时代灵活、高效、智能的数据底座.pdf》由会员分享,可在线阅读,更多相关《A2--王森林--Data Warebase:构建AI 时代灵活、高效、智能的数据底座.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、Data Warebase:构建AI 时代灵活、高效、智能的数据底座王森林 ProtonBase 王森林ProtonBase 资深技术专家毕业于浙江大学计算机系,获硕士学位,具有丰富的核心系统设计和研发经验。2013年加入阿里巴巴,曾任高级技术专家,负责搜索引擎,交互式引擎Hologres等系统的底层设计和研发。现专注于数据库的底层存储和高可用等方面的设计和研发工作。010203 AI 时代的数据架构需求Data Warebase 云原生实践Data+AI 的演进趋势AI 时代的数据架构需求传统的数据架构OLTPOLTPAppsService ModuleVector DBVector Sea
2、rchBatch SyncRealtime SyncOLAPBI&VisualizationBatch SyncRealtime SyncRealtime SyncCDCCDCFull Text SearchBatch SyncSnapshotSnapshot传统的数据架构弊端 数据不一致开发效率低成本不可控 稳定性差 迭代效率低 开发门槛高开发视角运维视角业务视角实时的AI工作流KafkaDatabaseIngestIngestAI Agent多模态检索Raw DataFeatures实时数据系统TransformIngestBusiness App实时决策Business App实时分析探
3、索数据科学家机器学习工程师实时AI工作流的核心需求数据新鲜性易用性高并发即时检索快速分析Data Warebase 云原生实践Data Warebase:数据开发的新范式Data WarebaseDatabaseDataWarehouseVector DBOLAPRealtime SyncBI&Visualization Vector SearchCDCOLTPOLTPAppsCDCCDCSnapshotSnapshotBatch SyncObject StoreFull Text SearchService ModuleAppsService ModuleOLTP Full-Text Sea
4、rchVector SearchOLAPBI&Visualization Batch SyncBatch SyncRealtime SyncRealtime SyncDataWarebasePostgreSQL:新一代数据库技术的共识基石PostgreSQL 流行度与日俱增StackoverflowStackoverflow 开发者调查开发者调查最受欢迎的数据库最受欢迎的数据库2023年2024年DB-EnginesDB-Engines RankingRanking2013 2025 年Data Warebase 核心能力:基于PostgreSQL构建QuickBIDBeaverGormMyb
5、atisSQLAlchemyDBTpgAdmin水平扩展的挑战HashRange数据分布一般较均匀可能不均匀查询路由分区键 O(1)非分区键广播维护全局路由信息实现复杂度低高从系统实现者的角度从系统实现者的角度从用户的角度从用户的角度HashRange范围查询效率低效率高易用性需要配置分片数无需配置扩缩容代价高迁移 n/(n+1)数据低可自动进行弹性伸缩的挑战保障吞吐保障吞吐计算层使用本地Cache加速存储层使用对象存储高吞吐高吞吐+低延迟低延迟使用高速本地盘或云盘保障延迟低延迟、高可靠的读写接口专门的存储服务内置 Raft/Paxos 一致性协议 不支持高并发实时写入 Latency 容易有
6、毛刺实现复杂Data Warebase 核心能力:秒级弹性伸缩 Multi-Multi-ClusterClusterComputeComputeCloud StorageCloud StorageWarebaseWarebase B BUnit 2 WarebaseWarebase A AUnit 1 Unit 3Unit 1 Centralized Centralized StorageStorage终极目的:秒级低成本的弹性伸缩 Range分布和保障高吞吐低延迟 计算节点无状态,可以快速增减 新增计算节点,无需