1、Doris在用户画像人群业务的应用实践 欧阳利萍 2020-09 1 提纲 u1,用户画像群体服务的业务场景 u2,技术问题、思路与相关业界方案实现情况 u3,基于Doris的技术实现 2 业务场景 3 画像业务分析场景 u群体分析 u业务报表 uGeo检索 u标签索引 4 超大数据规模下的标签索引问题 u用户画像数据沉淀,支撑应用 u基于标签索引的人群定向在多个关键行业、场景有广泛应用 u计算效率对于人群圈选应用至关重要 5 2,技术问题、思路 6 早期基于离线计算的方法 u灵活性差 u计算成本高 u时效不可忍受 7 技术问题 u影响计算复杂度的几个关键问题 uIO规模 u百亿级数据规模 u
2、千级别标签、百万+ tag u平均数百标签 u计算 u对全量数据进行规则过滤 8 技术思路 u倒排索引解决IO规模问题 u逻辑转换 u标签 = 二值TAG u条件 = 交并集运算 u存储优化 Bitmap u分布式计算加速计算过程 utag的并行 u分桶 9 3,基于Doris的技术实现 10 Doris分布式查询引擎 11 百度开源数据库Apache Doris的原理与实践, Apache Doris,李超勇 Bitmap in Doris 12 Daniel Lemire, Owen Kaser, Nathan Kurz, Luca Deri, Chris OHara, Franois S
3、aint-Jacques, Gregory Ssi-Yan-Kai, Roaring Bitmaps: Implementation of an Optimized Software Library, Software: Practice and Experience 48 (4), 2018 arXiv:1709.07821 Doris存储层设计介绍1存储结构设计解析,Apache Doris, https:/ 图:作为Doris索引的bitmap图:roaring bitmap Bitmap data type in Doris uDoris引入Bitmap数据类型(2019年Q4) u支持细粒度数据应用 u实现了交并集操作 uintersect_count uunion_count 13 Apache Doris 基于 Bitmap的精确去重和用户行为分析, Apache Doris