1、基于基于KubernetesKubernetes构建多租构建多租SaaSSaaS的实践的实践思成思成-火山引擎云原生架构师火山引擎云原生架构师个人简介个人简介思成思成火山引擎云原生架构师火山引擎云原生架构师email:email:扫码关注字节跳动云原扫码关注字节跳动云原生生目录目录 业务背景和特点 计算隔离 控制面隔离 网络隔离和联通性 CA多租和弹性负载业务背景业务背景-机器学习平台机器学习平台 体验友好体验友好云原生、SSH 开发机、jupter notebook/vscode高利用率高利用率资源池化、任务排队、弹性调度、混合调度高性价比高性价比公有云 0 GPU 碎片率、平台免费、系统级
2、优化、AI 训练/推理优化灵活开放灵活开放支持 openAPI、pythonSDK,支持云原生、超算、SQL for AI业务背景业务背景-云原生大数据平台云原生大数据平台一站式大数据管理平台,支持实现和离线计算,便捷的运维开发基于云原生技术部署,高效的资源管理和调度提升资源利用率字节跳动深度优化的实时计算链路,提供消息队列-实时计算-实时服务的全链路服务。GIMS Quota 服务Gateway网关服务流式计算 Flink 版Serverless 全托管批式计算 MLP-Spark 版Serverless 全托管云原生消息引擎BMQ 全托管云原生计算云原生计算 管理控制管理控制GPMS 租户
3、管理服务GRO 运行时管理GWS生态整合服务云原生计算云原生计算-运维平台运维平台 组件服务生命周期管理Helm Chart 管理日志、审计监控报警容灾、高可用大数据文件存储 CloudFS兼容 HDFS 语义TOS 透明加速 近计算缓存加速云原生计算云原生计算 计算引擎计算引擎GAS交付部署服务云搜索服务OpenSearch 全托管公有云-VKE/VCI混合云 veStack 敏捷/全栈 VKE客户定制化 K8sVKE VKE-火山引擎容器服务火山引擎容器服务mGPUmGPU 提升提升 GPU GPU 利用率利用率免免 K8s K8s 运维运维mGPU 是容器共享 GPU 方案,最多支持 1
4、6 个 Pod 共享一张 GPU 卡,支持 T4/V100/A100/A30、消费卡GeForce/GTX/1080Ti 等。多种算力分配模式和调度增强。K8S集群全生命周期管理,完善的运维,监控可视化,自愈能力,大幅降低运维成本。稳定可靠稳定可靠无缝集成无缝集成字节内部海量业务的大规模验证,积累了大量的最佳实践和管理经验,产品成熟稳定。多区域多可用区部署,构建更高的业务可用性。容器服务与火山引擎平台提供的多种服务进行了无缝集成,有效降低业务系统部署复杂度,提升效率原生安全原生安全满足不同隔离级别。完全托管,默认安全加固结合全方位网络安全隔离管控和细粒度的访问控制,实现服务和数据的安全性和高可
5、用性。VCI VCI-火山引擎弹性容器火山引擎弹性容器极致弹性极致弹性高效隔离高效隔离面向容器和虚拟机层面的自动化弹性能力、应对瞬时大流量请求的弹性能力。秒级满足近万核的扩容需求。基于 MicroVM 技术,提供虚拟机级隔离能力,消耗更小更高效。按需付费按需付费简单易用简单易用按实际实例运行时长内消耗的资源计费,精确到秒。无缝集成于容器服务VKE中,提供全托管 Serverless 能力,即开即用。业务特点业务特点均为计算资源托管的计算型产品,对性能、稳定性要求比较高。产品上支持客户自定义镜像、或者自定义脚本执行。数据不托管,数据源和目的都是租户的存储产品。产品售卖形式有三种:完全弹性后付费、
6、固定资源包年包月独占队列、min-max 配置的弹性独占队列。因此对资源弹性以及负载弹性性能要求比较高。设计要点设计要点租户独占节点池。满足安全、性能和稳定性的诉求。Pod 网络使用 VPC-CNI Underlay 网络,保障 Pod 通信性能。改进了 VPC-CNI 网络,实现了 Pod 双网卡、指定 Pod 主网卡安全组的能力。对齐 VKE 和 VCI Pod 接口、VPC-CNI 能力和接口、CSI 能力和接口,支持了弹性负载调度到弹性容器 VCI。使用 CA 自动管理节点池,提升资源利用率。实现了P2P、懒加载、镜像预热方案,实现弹性负载秒级启动。计算隔离计算隔离动态动态 ECSEC