1、全新的Greenplum 6.0内核优化解读和7.0展望 姚延栋 Greenplum 研发总监 Contents01目录Greenplum 6.0 内核新技术 02Greenplum 6.0 新特性解读 03Greenplum 7.0 展望 6.0 内核新技术01PostgreSQL 8.3 Greenplum 5.x(2017/09 发布)PostgreSQL 8.4 master(2017/12)PostgreSQL 9.0 master(2018/03)PostgreSQL 9.1 master(2018/05)PostgreSQL 9.2 master(2018/09)PostgreS
2、QL 9.3 master(2018/09)PostgreSQL 9.4 master(2018/10)PostgreSQL 9.4.20 master(2018/12)Greenplum 6.0 2019/09/04 发布 内核升级 站在前人肩膀上 6.06.0 完成完成6 6个大的版本个大的版本升级升级,?集成了来自于集成了来自于PostgreSQLPostgreSQL社区的约社区的约1400014000次代码提交次代码提交?融合了社区将近融合了社区将近1010年的工作结晶年的工作结晶?全局死锁检测 锁优化 事务优化 收集每个Segment的依赖关系 Master 构建依赖图 周期性检测是
3、否存在环 不支持AO Procarray锁 只读事务不需要分布式快照 单节点查询两阶段提交 只读事务两阶段提交 HTAP 性能优化(70X)复制表 内核升级 整体性能提升 索引有效 UDF Greenplum 5:Filerep Greenplum 6:流复制 基于文件IO 代码侵入性大 涉及文件数目大 不易于扩展 PostgreSQL 原生的流复制技术网络开销低端口占用数量快速replay扩展性好代码侵入低为 DR、CDC、3副本 打下基础集群管理复杂度降低全新高可用机制 弹性数据分布 数据分布策略 弹性 在线扩容 不停机 不停业务 降低数据移动量 一致性Hash 数据类型自适应 可自定义
4、弹性计算 基础设施就绪 基础设施就绪 6.0 新特性解读02集成处理平台 TP 性能达70倍提升 数据类型 流式数据 SELECT:14万/s INSERT:4.6万/s UPDATE:2.4万/s 结构化数据Key/ValueXMLJSON(文档类型)Text(文本数据)Geospatial(地理信息数据)Time Series(时序数据)Image(图像)Graph(图数据)实时流式数据加载 时序数据分析 流式数据处理 混合负载(HTAP)TP 性能达70倍提升 数据类型 流式数据 SELECT:14万/s INSERT:4.6万/s UPDATE:2.4万/s 结构化数据XMLJSON实
5、时流式数据加载 时序数据分析 流式数据处理 HTAP 超越大数据 Velocity Volume Variety 多态存储引擎 灵活资源管理 安全 Heap Append Optimized 列存(AOCO)外部表 全新压缩方式(zstd)Unlogged 表 并发度CPU 配额CPU 绑定内存 配额磁盘配额灵活的认证机制 基于角色的访问控制 列级别权限控制 混合负载(HTAP)Foreign Data Wrapper PXF 框架 Spark连接器 Oracle MySQL PostgreSQL ElasticSearch Redis 上百种 HDFSHiveHBaseS3JSON Parq
6、uet ORC SequenceFile Text CSV 数据融合,互联互通 Kafka连接器 高效并行连接器谓词下推、字段投影内存分析支持Spark编程语言PythonScalaJavaR支持Exactly Once并行消息处理支持窗口对窗口支持自定义处理JSONAvroBinary自定义类型多字节分隔符大表关联、分组聚集(SQL 1992)Window函数(SQL 2003)Cube/Grouping Sets(SQL 1999)亮点SQL特性,大幅提升开发速度 JSON(SQL 2016)CREATETAB