1、开源操作系统在AI时代下的技术演进及融合杜震 腾讯云TencentOS 高级产品架构师主讲人:01 什么是腾讯的开源操作系统?2022年2021年成立OS研发团队开启OS自主研发开始自主研发精简内核稳定性/性能提升新硬件支持功能定制持续运营打磨发布TencentOS 1自研业务覆盖99%支持微信、QQ、游戏等核心业务发布TencentOS 2上架腾讯云平台支持公有云客户支持私有云客户发布TencentOS 3打造操作系统生态引领核心技术OpenCloudOS社区成立腾讯开源操作系统简介:十三年积累,千万节点验证自研、公有云、私有化总装机规模超1000万节点规模1000万自主研发时代自主研发运营
2、、持续打磨创新研发时代向外生长、社区生态、技术引领2010年 开始研发 1000万 节点规模 99.999%企业级高可用2019年2018年2011年2010年腾讯开源操作系统社区定位及路线社区稳定版源社区商业版衍生发行版L0L2L3L4发行版L1上游社区其他用户态软件上游开源社区Linux内核+GNU组件+其他开源组件L1版本加固+技术支持/服务经企业大规模验证,基于L2的重编译或定制优化基于L3优化改造的发行版OC9的再发行版本短期方案:用户态兼容CentOS,继续提供服务和支持,提供迁移工具、短期解决CentOS断供替代问题长期方案:全链路自研,解决国产操作系统上下游供应问题,促进基础软
3、件可持续发展红旗发布 Open Cloud Linux V8.5超凡桌面SIG发布OC8.6 NDE桌面版CentOS Stream业界GPU硬件厂商开源主流AI模型开源操作系统与 AI 厂商生态TencentOS Server 兼容性列表02 AI时代下GPU算力资源浪费怎么办?单张GPU卡算力越来越强,价格越来越贵,AI应用的GPU资源使用率低,算力浪费怎么办?GPU资源共享方案技术思路AI 模型加速库GPU 运算平台GPU DriverGPU硬件用户层内核层Application123 Framework(如TensorFlow、PyTorch)拦截、控制 运算平台 API,包括Runt
4、ime API和Driver API,拦截、控制 UMD/KMD中间拦截、控制GPU Driver/KMDGPU 0GPU 1GPU 7UMDApplication容器UMDApplication容器qGPU容器产品:GPU提效神器GPU driver(KMD)Kubernetes+GPU scheduler pluginqGPU container runtimepod0 1/n GPUruntimeUMDAPPqGPU driver显存+算力+故障 精准隔离在离线混部能力GPU 0GPU7GPU 1GPU K8SKubernetes scheduler 集群调度算法pod1 GPUrunt
5、imeUMDAPPpod 1 GPUruntimeUMDAPPpod GPUruntimeUMDAPPGPU/vGPU 实例qGPU 支持多个容器共享 GPU 卡,支持各容器间算力、显存的精细隔离和灵活配置,并且支持GPU 离在线混部的能力。在精细切分 GPU 资源的基础上,在最大程度保证业务稳定的前提下,将 GPU 利用率使用到极致,最终帮助客户大幅节约GPU资源成本。灵活性精细切分GPU算力及显存强隔离支持显存和算力的精准隔离在离线混部支持在离线混部能力,GPU 利用率使用到极致覆盖度支持消费卡及工程卡云原生支持标准 Kubernetes 和Docker兼容性业务无感知、软件不替换、不重编
6、高性能GPU 驱动层虚拟化,近零损耗WXGqGPU每年为腾讯节约成本9000万TMEPCGqGPU实测:精准隔离,性能强劲bs1bs4bs8bs16bs32bs64bs1280501001502002503003504004505002pods(weight:2:1)/Throughputpod1pod2podsumnativebs1bs4bs8bs16bs32bs64bs1280501001502002503003504004505003pods(weight:4:2:1)/overhead/Throughput