当前位置:首页 > 报告详情

2017年实时大数据分析之利器Druid.pdf

上传人: 云闲 编号:92455 2021-01-01 28页 2.11MB

1、实时大数据分析之利器Druid2017/12议程 关于品友 大数据分析的繁花似锦 历史和发展 架构 技术优势 应用 其他分析工具品友:中国程序化营销的领跑者59.8%品牌程序化市场占有率独立第三方广告技术领先者:创新&执行力1.5P每日处理1P的数据量4亿每日覆盖4亿个网页260亿每日处理260亿条日志20T每日20T新增日志8.9亿8.9亿Cookies人群5.3亿5.3亿日独立用户设备品友大数据计算平台大数据分析的繁花似景大数据分析的CAP性能(Performance)成本(Affordable)能力(Capacity)例如:Druid:A,P Vertica:C,P Presto:C C

2、lickHouse:P,C,A?DRUID介绍 2011 Metamarket 开发,2012年开源 初始用于广告分析,程序化分析+150贡献者 典型应用 300亿事件/天(品友互动)10亿事件/分钟(Jolata)用户行为分析(今日头条)广告实时分析(小米)性能监控分析(OneAPM)等等2017,8,Druid 中国 第五次Meetup2017,3,Druid 中国 第四次MeetupDruid简介 高可用性,Segment Shard机制 高性能,亚秒级查询响应 高吞吐,支持实时数据接入,批量数据接入 正确性,lambda架构能够在T+1时间校正实时数据 查询有segment级别缓存 堆

3、外内存复用,避免GC问题数据分析的演化阶段DRUID 架构Druid 的类 LSM-tree 近似直方图和分位数 预估数据(Data Sketch)地理索引和查询 路由器(Router)Kafka 索引服务 Druid一些高级特性DruidKafkaHDFSPivot(imply.io)Caravel(AirBnb)Calcite(Apache)PlyQL(imply.io)MetaBasePulsar(eBay)Imply(imply.io)spark-druid-Olap(SparklineData)Docker-Druid(druid.io)Druid-Console(druid.io)

4、Tranqulity(druid.io)PyDruid(druid.io)RDruid(Druid.io)SQL4D(srikalyc)S3Storm数据源访问扩展数据可视化分析平台数据管理Druid管理Druid数据分析生态系统数据分析生态系统Druid-Metrics-Kafka(quantiply)Druid-C(quantiply)Grafana-plugins(quantiply)Druid-Spark-Batch(MetaMarkets)Calcite(Apache)Druid行业应用:程序化广告平台分析Druid实时大数据分析Druid的应用:头条用户行为分析From:第四次中国

5、Druid用户组MeetupDruid的应用:OneAPM监控Druid实时大数据分析Druid的应用:网易行为分析From:第四次中国Druid用户组MeetupDruid的应用:知乎数据分析 行为分析 留存分析 查询报表From:第四次中国Druid用户组MeetupDruid不是银弹虽然快,但是聚合是一个双刃剑对CAP追求的执着发现新物种?(类百度统计 or Google Analytics)数据量:200+亿事件/天,100K+分析查询/天,数百万网站ClickHouse的不完美:1.不支持Transaction,OLTP2.聚合结果必须小于一台机器的内存大小3.缺少完整的Update

6、/Delete操作4.不适合典型的Key-Value存储5.不支持Blob/Document类型数据6.仅仅支持Ubuntu OS,其他用DockerEvent-oriented RDBMSClickHouse的技术特性和不完美ClickHouse/Metrica发展简史第一阶段MYISAM(LSM-Tree)(2008-2011)阶段二:Metrage(从2010-现在/End)阶段三:OLAPServer(2009-2013)第四阶段:ClickHouse(2011-现在

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了实时大数据分析工具Druid,以及它在中国程序化营销中的应用。Druid自2011年由Metamarket开发并开源,主要用于广告分析和程序化分析。其典型应用包括品友互动的300亿事件/天,以及小米的广告实时分析等。Druid具有高可用性、高性能、高吞吐量和正确性等特点,支持实时数据和批量数据接入,并能在T+1时间校正实时数据。同时,文章也提到了Druid的一些高级特性,如Kafka索引服务、Pivot、Caravel等,以及其在程序化广告平台分析、用户行为分析、监控等方面的应用。此外,文章还对Druid的局限性进行了讨论,指出虽然Druid性能优越,但聚合操作有其双刃剑的特性,对CAP的追求也可能限制其在某些场景下的应用。最后,文章还简要介绍了另一种大数据分析工具ClickHouse,并解释了其快速性能的原因。
"Druid如何实现高可用性和程序化分析?" "ClickHouse为何被认为不适合典型的Key-Value存储?" "Palo的整体架构中有哪些关键技术特点?"
客服
商务合作
小程序
服务号
折叠