Terark—重新定义数据技术(23页).pdf

编号:91207 PDF 23页 2.25MB 下载积分:VIP专享
下载报告请您先登录!

Terark—重新定义数据技术(23页).pdf

1、T重新定义数据技术雷鹏Terark Inc.CTO-Preface-Terark是一个数据技术提供商Terark成立于2015年11月致力于研发领先世界的高压缩存储和高性能检索技术Terark目前的性能已经大幅超越了rocksdb等开源存储引擎我们的存储引擎能为典型的大数据应用节省30%以上的成本Big Data Market Revenue Trend 20112026市场需求巨大-世界上92%的数据是在过去两年产生,并且还在加速,每年增长40%50%-云端,终端,都在处理越来越大的数据量,需要新型数据技术极高的性能和存储能力Wikibon报告20112026 Market Forecast

2、可检索压缩 SeComp(Seekable Compression)技术这个技术拥有超高的压缩率(一般在5倍以上),同时可以直接在压缩的数据上进行定点访问(微秒级),避免了传统数据库使用的分块压缩技术固有的缺点索引技术我们实现了多种独有的索引技术。其中最关键的是“数据即索引,索引即数据”,从而节约了空间,同时并保持甚至提高了性能存储引擎技术Terark存储引擎可以便捷的融入各种数据系统,为其提供高效的核心存储技术,大幅提升整个系统的容量和性能核心技术TerarkDB 是高性能、高压缩的存储引擎我们测试过一组800G的数据,Terark压缩后只有47.9G,同时Query延迟达到微秒级。使用Te

3、rark,只需要1台普通64G内存的服务器就够了,而用其它数据库可能就需要搭建一个小集群了。适用场景 云平台 互联网 企业大数据 数据库 手机 功能丰富:支持丰富数据类型的Schema定义和灵活的索引,原生支持正则表达式检索 性能强大:TerarkDB的QPS比同类产品提高12个数量级,降低延迟,提高吞吐量 容量大成本低:压缩率5倍以上,极大的降低IO压力,提高数据容量,降低基础设施成本与谷歌、Facebook的产品相比占空间更小同时检索更快非时间空间的折衷,而是技术革新TerarkDB 技术精要功能概要 索引压缩 数据(Value)压缩 Succinct TerarkDB 架构索引压缩Has

4、hB+TreeTerark Nest Succinct Trie压缩率膨胀还行 很高搜索速度极快较快很快精确搜索支持支持支持范围搜索不支持支持支持前缀搜索不支持支持支持正则搜索不支持不支持支持反向搜索(id到key)可支持不支持支持动态索引:TRB:Terark Thread Red Black Tree传统 RBTreeB+TreeTRB数据结构消耗4 ptr 0.75 keylen64 bits搜索速度较快很快很快数据耦合紧耦合紧耦合松耦合反向搜索(id到key)不支持不支持支持key可与结点分离Key 数据可以保存在另外的数组,用平行的数组下标访问 例如,以最小代价,用作链式 HashM

5、ap 的冲突链,用作 DFA 的状态转移表只有 Left/Right,用数组下标代替指针;使用两个 bit 表示 threadtag,iterate更快数据(Value)压缩块压缩:leveldb,rocksdb,wiredtiger短数据:Terark Nest Succinct Trie长数据:Terark Global Compression压缩率还行 很高很高 随机读取速度很慢很快 很快 顺序读取速度很快 较慢很快 双缓冲问题有无无压缩速度快慢慢索引压缩:Succinct Tree,概念Succinct Data Structure 是一种能够在接近于信息论下限的空间内来表达对象的技术

6、,通常使用位图来表示,用位图上的rank和select来定位。虽然能够极大的降低内存占用量,但是实现起来较为复杂,目前开源的有SDSL-Lite。注意:Succinct数据结构的性能比相应的传统(基于指针)数据结构更低。Terark 使用自己实现的 Rank-Select,性能远高于开源实现。索引压缩:Succinct Tree,图示每个结点用两个bit表示,Pre-Order 10110100100每个结点用两个bit表示,Level-Order 101110010000LOUDSParent(c)=rank0(select1(c)Child(p,i)=select0(p)p+iNeeds

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Terark—重新定义数据技术(23页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠