《01-从NewSQL到全新的HTAP分布式架构演进-张潇.pdf》由会员分享,可在线阅读,更多相关《01-从NewSQL到全新的HTAP分布式架构演进-张潇.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、MatrixOne 从NewSQL到全新的HTAP分布式架构演进张潇我介绍2011-2021,10年全职DBA,融、教育、商业地产业 2021-今,矩阵起源,担任产品架构师 熟悉Oracle/SQL Server/MySQL等主流关系型数据库录MatrixOne的早期架构与难题 MatrixOne的升级之路 架构升级的困难与收获 公司与产品介绍 总结MatrixOne 早期的架构与难题MatrixOne的早期架构提供了从数据标注、模型部署、模型仓库等功能。且为了使得部署后的模型可以更便地给应调,持将算法服务发布成API;也为了使得部署后的模型可以更容易地被调度,持将算法服务发布成AI组件,被A
2、I作室的调度引擎进调度。NewSQL+MPP分布式架构:多节点的分布式数据库服务器,解决了传统单机数据库伸缩性和可问题。多引擎:数据库服务器中可能存在多个存储引擎,不同的引擎负责不同的场景。NewSQLMPP并计算:将任务并地分散到多个服务器和节点上,在每个节点上计算完成后,将各部分的结果汇总在起得到最终的结果。MatrixOne的早期架构SQL组件SQL Frontend提供MySQL兼容协议兼容MySQL的语法计算层Query Parser解析SQL并转化抽象语法树提供持多种SQL基础MPP SQL Execution针对SQL计算引擎的些基础操作的向量化加速部分操作采了汇编改写做加速独有
3、的因化加速能MatrixOne的早期架构分布式框架MatrixCube现多台机器的分布式数据存储的分布式框架提供可、多副本、强致与动负载均衡提供分布式事务的持能(WIP)提供基于Raft的副本调度机制,该调度器在代码中称为ProphetMatrixOne的早期架构存储层AOE引擎Append Only Engine,这是个Append Only的列存引擎,不持事务TPE引擎Transaction Processing Engine,于保存元数据CatalogTAE引擎Transactional Analytical Engine,基于列存的HTAP引擎,会提供完整ACID能及强的OLAP能原有
4、架构的三难题扩展性share nothing架构,每扩展1单位节点,需同时扩展存算资源每份数据少要保存3副本,从扩展节点到完成,时间更久性能 Raft协议所包含的leader,容易造成热点 在性能较差的存储下,数据库整体性能下降会超过预期 多种引擎各途不同,性能各异,法有效应对HTAP场景成本数据保存3副本,随节点规模,成本不断攀升,云上版本更甚只有配存储才能发挥数据库的预期性能MatrixOne 架构升级之路原架构的三座分布式框架 多副本存储存储成本飙升 Leader选举制造热点引擎众多 多存储引擎开发维护成本 因化算法过于激进资源分配 存算不分HTAP隔离性差 share nothing扩
5、展性差架构升级灵活解耦的整体架构Storage LayerS3/NFS/HDFSCache ServiceTransaction LayerTransaction ServiceCompute LayerLog ServiceExecution ServiceStreaming Service架构升级融合存储引擎TAE 列式编码压缩,采Column Family灵活在存和列存之间切换可同时运TP和AP负载所有Table均持SI事务隔离级别持主键、唯键排序 冷数据保存S3(私有化部署提供S3兼容存储)热数据作为Cache保存在计算节点 所有节点状态,可以任意隔离负载 并发访问能可以通过任意启动计
6、算节点线性提升多引擎相互协同AOE,不持事务与去重,AP性能较好TPE,保存catalog中的元数据信息TAE,基于列存的HTAP引擎,会提供完整ACID能及强的OLAP能多副本与分 每份数据少保存3副本 数据以分(shard)的形式保存 利操作系统带的Cache个引擎,承担所有负载冷热&读写分离,精细化管理架构升级性能计算引擎多引擎下的匹配计算MPP执引擎 基于DAG构建执计划,适应节点内和节点间调度 同时满并发和并执 完善SQL能:持查询、窗函数、CTE、Spill内存溢出处理等 未来的优化空间更 因化算法构建执计划,对复杂查询做加速,提AP场景的性能 表达式与节点的抽象与表述较为复杂,增