1、师锐字节计算基础架构负责人实时计算在字节跳动的发展与展望#1#1#2#2#3#3发展概览#4#4历程回顾重点工作展望总结#1#1发 展 概 览国 内 业 务海 外 业 务字 节 跳 动 旗 下 产 品实 时 信 息 流 推 荐规 模 与 挑 战实时推荐请求海量存储空间全球 MAU国家与地区运营1919亿亿150150个个EBsEBs百万百万 QPSQPS实时计算在字节跳动的主要应用场景#1#1#2#2#3#3#4#4#5#5实时特征计算e.g.窗口计数实时模型训练实时数仓安全&风控实时大屏e.g.春晚,双十一主要计算引擎资源对比2021-01-012021-01-142021-01-27202
2、1-02-092021-02-232021-03-132021-03-262021-04-092021-04-232021-05-072021-05-212021-06-042021-06-242021-07-112021-07-242021-08-072021-08-212021-09-032021-09-172021-09-302021-10-142021-11-15SPARKApache FlinkPRIMUSMAPREDUCE#2#2历 史 回 顾2017 2018:Flink 初露锋芒调研并明确 Flink 为字节流式计算引擎的发展方向#1#1完成 Jstorm on Flink 适
3、配工作,推动 Jstorm 向Flink 引擎迁移#2#2构建一站式流式计算作业管理平台#3#3SmartResources 上线,支持自动调整 Container CPU 和内存使用量#4#4单点故障重启上线,支持超大规模抖音流式训练作业#5#5完成 100%Jstorm作业迁移#1#1Flink 1.5-1.9 版本升级,在公司范围内推广 Flink SQL#2#2Flink Batch 在公司内场景落地#3#3统一实时元信息#4#4State&Checkpoint大规模推广#5#52019 2021:Flink 高速发展数据来源:字节跳动 Flink 团队内部统计字节跳动 Flink 全
4、景全球 Flink 作业数量SQL 作业占 30%全球 Flink作业使用 CPU 核数全球开启 checkpoint 作业的数量高峰流量吞吐 600GB/s全球消息处理峰值 QPS4 4万万400400万万9090亿亿1.81.8万万#3#3重 点 工 作YARN 编排调度一次性资源分配加速启动考虑负载均衡反调度机制批流作业混部利用率提升单机环境资源隔离GangGangScheduleSchedule负载均衡负载均衡调度调度容器化容器化混合部署混合部署DistributedStorageCoordinatorControllerBrokerBrokerBrokerProxyProxyProx
5、yKV StorageConsumerProducerBMQBMQ批流一体Native 实现兼容 Kafka 协议存储计算分离Flink 开发迭代Runtime&Services单点故障恢复SmartResources推测执行故障节点自动隔离性能测试框架混沌工程多机房容灾SQL1.9-1.11 升级Flink SQL 开发平台丰富 Connector 生态Temporal Table Function维表延迟 Join自定义窗口新增聚合指标兼容 CheckpointState&Checkpoint小文件聚合Regional CheckpointState backend Cache自定义 Ch
6、eckpoint 触发策略Queryable StateDorado 流式计算平台作业托管一键容灾SQL 开发调试智能诊断特征计算平台KafkaKafkaHiveHiveKV KV 存储存储RPC RPC 服务服务数据源抽取抽取扩展扩展过滤过滤字段抽取/扩展/过滤unionunioninterval joininterval joinwindow joinwindow joinlookup joinlookup join数据 JOIN/UNIONSchema Table字段名类型user_idbigintnamev