1、字节跳动大数据平台架构演进之路字节跳动大数据平台架构演进之路陈苏安陈苏安 火山引擎资深研发工程师火山引擎资深研发工程师个人简介个人简介 2018-2021 网易 大数据平台研发 2021-至今 字节 云原生计算研发目录目录 字节大数据业务发展现状和问题 字节云原生大数据实践 未来规划字节跳动大数据业务发展现状字节跳动大数据业务发展现状今日头条今日头条抖音抖音抖音火山版抖音火山版西瓜视频西瓜视频懂车帝懂车帝皮皮虾皮皮虾FaceuFaceu激萌激萌轻颜相机轻颜相机飞书飞书番茄小说番茄小说海量存储空间EBsEBs千万千万 Core Core计算资源调度字节跳动大数据业务发展现状字节跳动大数据业务发展
2、现状云原生大数据组件管理和发布运维管理数据管理节点传统传统模式模式云原生模式云原生模式统一 Portal业务 1业务 2n业务 3业务 4运维 1运维管理数据管理节点运维 2运维管理数据管理节点运维 n资源按需调用,资源池统一调度Flink 集群Spark 集群Kafka 集群业务 1业务 2业务 3业务 4一键开通,按需部署,统一运维集群搭建耗时耗力,运维孤岛和数据孤岛资源独占,峰值不满足,平时有空闲字节跳动大数据业务发展现状字节跳动大数据业务发展现状元数据管理数据网关服务云原生 Flink云原生消息引擎平台服平台服务层务层租户和用户管理数据源管理生态整合服务资资源源调调度度层层组件管理日志
3、审计监控报警容灾管理统一存储(HDFS 或对象存储)兼容 HDFS 语义 TOS 透明加速缓存加速核心引擎核心引擎层层实时服务分析引擎云原生日志搜索公共云 容器服务私有云-开源 K8s多云部署和调度统一资源池云原生 YARN云原生 Operator运维管理平台权限管理项目管理作业开发任务调度数据湖管理集群管理多环境管理云原生大云原生大数数据平台据平台-功能架功能架构构一一览图览图字节云原生大数据实践字节云原生大数据实践-难点难点 传统的大数据存储组件 HDFS 如何上云 容器化平台不具备与 YARN 队列类似的资源管控能力 调度器不存在“作业”概念,不具备作业排队&作业级调度策略 原生的大数据
4、作业在容器化提交后,往往状态信息获取不准确 大数据作业容器化部署后导致日志收集、监控告警变得复杂字节云原生大数据实践字节云原生大数据实践-大数据存储大数据存储NN ProxyNameNodeDataNodeDance ProxyDanceNNDanceBSDanceDNNameNodeDataNode开源开源 HDFS HDFSHDFS HDFS 联邦联邦CloudFSCloudFS联邦统一元数据视图,用户流量统一转发、业务流量统一管控利用 RocksDB 保存 NameSpace 元数据,突破单机内存限制支持云上的对象存储,作为缓存层在云上提供 HDFS 协议使用 C+进行重构,避免大内存场
5、景下的 GC 停顿时间长的问题字节云原生大数据实践字节云原生大数据实践-大数据存储大数据存储存储存储引擎引擎数据数据底座底座DanceProxyQoS NsProxyQuotaAuthDanceNNNamespaceDanceBSBlockMgmtKV 存储DanceDNMultiTier CacheBlockPoolStorage AdapterPortalDataManagementDataInsightObject Storage(Tos)Remote Disk(EBS)SSD/HDDOther Block Storage低成本:低成本:支持存储空间线性扩展,降低成本;高性能:高性能:提
6、供高吞吐,高稳定的数据读写能力,读取和写入速度快。对业务的价值对业务的价值字节云原生大数据实践字节云原生大数据实践-大数据调度大数据调度容器化平台不具容器化平台不具备与备与 YARN YARN 队队列列类类似的似的资资源管控能力源管控能力调调度器不存在度器不存在“作作业业”概概念,不具念,不具备备作作业业排排队队能力,不具能力,不具备备作作业级调业级调度策略度策略API ServerK8s(VKE/VCI)QueueOperatorPodGroupOperatorOpJob Operator(计量、状态)Flink