1、2016/12/8 1 www.transwarp.io 大数据技术的最新进展和发展趋势 孙元浩 星环科技 Founder & CTO transwarp.io 2016/12/8 2 www.transwarp.io Hadoop的发展历程回顾 2016/12/8 3 www.transwarp.io 大数据技术的软件栈 分布式存储引擎 资源管理框架 通用计算引擎 领域级引擎 分析管理工具 短时任务资源管理框架 YARN 长时任务资源管理框架 Mesos 资源隔离调度管理框架 Kubernetes 批处理框架 Map/Reduce2, Tez 高性能处理框架 Spark 向量处理框架 Ten
2、sorFlow 分布式文件系统 HDFS 搜索引擎 Elastic Search 分布式大表 HBase 分布式缓存 Redis 消息队列 Kafka 分布式协作服务 Zookeeper 流处理引擎 Streaming Processing SQL批处理 Batch Processing 数据挖掘 机器学习 算法库框架 Machine Learning 交互式分析 OLAP Analysis 实时数据库 OLTP Transactional Processing 图分析引擎 Graph Analysis 深度学习 Deep Learning ETL 数据装载工具 Workflow 工作流开发工
3、具 数据质量 管理工具 统计挖掘 开发工具 资源 管理工具 机器学习 建模工具 可视化 报表工具 2016/12/8 4 www.transwarp.io 进展一:分布式计算已逐渐成为主流计算方式 Transaction Relational Database Batch Data Warehouse Analyze Cluster Unstructured Streaming Devices Analyze (MapReduce) Organize Traditional Data Analysis Big Data Analysis 0500100015002000250030001TB1
4、0TB30TB100TBTranswarp Inceptors Performance TPC-DS Execution Time for 99 Queries (in minutes) Test environment: 29 worker nodes 2 CPUs, 12 Cores, E5-2620 v2 96GB memory Network: 2 X 1Gbps Disks: 12 X 3TB 星环大数据集群已经可以在生产环境中处理20PB的数据 星环SQL on Hadoop已经能够高效处理100TB数据的复杂分析 2016/12/8 5 www.transwarp.io 进展二:
5、交互式分析技术日益成熟 星环Inceptor SQL Execution Engine 星环星环Holodesk 交互式数据探索交互式数据探索 星环星环Hyperbase 明细查询、影像检索、文档检索明细查询、影像检索、文档检索 Based on HDFS Discover 数据关联挖掘数据关联挖掘 Rstudio R语言Web IDE 分布式内存/SSD列式存储 HUE/Zeppelin 图形化数据分析查看 智能索引技术 全局索引 全文索引 数据稽核数据稽核 元元数数据据管管理理 数据处理工作流调度数据处理工作流调度 分布式 统计算法库 分布式 挖掘算法库 Waterdrop SQL开发工具
6、 ODS 贴源层 文本文件 DWD 基础明细层 ORC事务表 公共主题模型层 Stargate 主流报表工具 星环星环Midas 图形化挖掘工具 星环Cube设计工具 2016/12/8 6 www.transwarp.io 交互式分析性能对比:TPC-H 1TB Inceptor4.6 vs GP4.3.10 The TPC BenchmarkH (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modi