1、例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求:微软雅黑:最小字号 8号 宋体:最小字号 10号 等线:最小字号 12号万亿级通用标签管理&应用系统设计与实践单元源字节跳动抖音电商研发工程师单元源字节跳动抖音电商研发工程师毕业于华中科技大学,8年研发经验,拥有丰富的大数据与分布式计算实践经历,擅长大数据系统与高并发系统的架构设计与实现。推动抖音电商塔阁平台从0到1的搭建工作,主导整体框架设计、标签数据链路与应用以及系统稳定性与资损防控等方面的工作。目前主要负责实时标签与应用系统的研发工作。CONTENTS目录1.抖音电商应用场景介绍2.业
2、务与技术挑战3.塔阁平台的核心设计4.思考与规划抖音电商圈选系统应用场景介绍标签与人群标签:用来描述用户的特征描述信息,比如用户在抖音电商的生命周期(新客、老客或者流失客)。人群:一批满足特定条件的用户集合称为人群,比如在过去30天下单次数超过3单的精致妈妈。标签集市人群圈选人群典型场景搜推加权搜推加权广告定向广告定向营销活动营销活动店铺运营店铺运营分析能力圈选预览人群分析人群圈选过程天然会伴随着预览和分析的诉求,需要支撑业务侧对预算和效果进行评估和跟踪。应用系统营销发券运营活动商品算价圈选拿到人群并不是终点,需要把人群推送到对应的业务系统才能发挥出具体的业务价值。营销中心广告投放触达平台特征
3、应用千川穿山甲巨量引擎外部广告短信抖音PUSH邮件外部推送营销特征推荐系统搜索系统业务与技术挑战海量数据的管理体系标签千级别人群几十万数据量万亿业务场景几百在线流量千万级海量标签加工需求10万级任务调度管理百TB数据加工同步高性能分析资损&稳定性保障实时数据保障不仅仅是用户商品商家直播间短视频跨实体匹配商家私域运营塔阁平台的核心设计人群圈选链路图系统架构图多副本产品化自动化平台化/多租户产品化标签加工体系离线/实时标签产品化接入标签二次加工自定义标签接入标签数据编码&同步产品化标签加工体系离线/实时标签产品化接入产品化标签加工体系XEXPRSparkFlinkFaaS自定义标签接入&二次加工核
4、心圈选系统设计离线圈选实时规则圈选实时物化圈选离线圈选系统设计Hive+ClickHouse标签宽表Hive标签宽表ClickHouse标签BitmapClickHouse灵活稳定时效性差易于优化即席查询灵活性一般预览&分析即席查询灵活性差预览离线圈选系统设计BitmapCREATE TABLE db.table(p_date Date,slice_id UInt64,tag String,ids BitMap64)ENGINE=MergeTree PARTITION BY p_date ORDER BY tag SETTINGS index_granularity=128RoaringBit
5、map用户字典用户字典Distributed_perfect_shard导入导入:INSERT INTO TABLE db.table values(2020-01-01,1,male,1,2,3,4,5)预览预览:SELECT bitmapCount(A&B)FROM tag_uid_bitmap圈选圈选:SELECT bitmapDecode(A&B)FROM tag_uid_bitmap离线圈选系统设计完美分片离线圈选系统设计Bitmap分片人群A:1001,2001,3001,4001,5001人群B:1001,2002,3001,4004,5005人群A1:1001,2001人群B1
6、:1001,2002人群A2:3001,4001,5001人群B2:3001,4004,5005A&B=(A1|A2)&(B1|B2)=(A1&B1)|(A2&B2)A1&A2=,B1&B2=,A1&B2=,A2&B1=离线圈选系统设计主键字典64位:位:std:map roarings数据稀疏问题数据稀疏问题用户字典用户字典离线圈选系统设计海量数据全局字典外部编码Bulkload内存占用可控导入过程系统负载可控导入速度提升离线圈选系统设计Bitmap&宽表混合查询SELECT user_id FROM tag_row_table WHERE tag_a