《敖玉龙_基于FlagOS技术栈的大模型框架多芯片统一高效插件体系.pdf》由会员分享,可在线阅读,更多相关《敖玉龙_基于FlagOS技术栈的大模型框架多芯片统一高效插件体系.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、北京智源人工智能研究院敖玉龙Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.FlagOS技术体系介绍FlagOS训练插件介绍FlagOS推理插件介绍FlagOS插件体系新探索与规划FlagOSFlagOS:面向多种:面向多种AIAI芯片的全栈开源技术芯片的全栈开源技术AI大模型语言模型DeepSeek,Qwen,Seed-oss,GPT-oss,Step,Grok,Llama,GLM,Hunyuan等多模态模型EMU,MiniCPM-v,Qwen2.5/3-VL,ERNIE4.5,Llava系列具身智能模型Robo
2、Brain2,RoboBrainX0.5Pai-0,Pai-0.5FlagOS 生态使能项目Megatron-LM-FLvLLM-plugin-FLTransformerEngine-FL深度学习框架(PyTorch,PaddlePaddle,etc)支持多种芯片架构Nvidia,NPU,GPGPU,DSA,RISC-V AI,ARM等16家厂商25款AI芯片支持多种系统硬件形态端侧计算模组AI PCAI服务器超节点系统支持多种应用场景数据中心(train&Inference)机器人(cloud-edge cooperation)边缘(inference)FlagOS 开源核心库FlagGem
3、s 通用大模型算子FlagScale训练推理并行框架FlagTree 统一编译器FlagCX统一通信库FlagOS 开源工具KernelGen v1.0 算子自动生成工具FlagRelease 自动迁移和发版工具FlagPerf 多芯片评测工具FlagOSFlagOS统一算子库:统一算子库:FlagGemsFlagGems已经发布了230个常用大模型算子,87%达到或超过CUDA算子性能问题:为了满足每次request的变长输入的优化,Triton使用online AutoTune,造成推理耗时陡增解法:设计高效的离线搜寻机制,建立Shape与内核参数对应关系,online 直接查表获取内核参
4、数,降低搜索耗时收益案例:应用于 Qwen2.5-7B-Instruct,端到端推理性能提升40%。PreTune 离线搜寻最优内核配置 superiority ratio of FlagGems vs CUDA:62%equal ratio of FlagGems vs CUDA:25%worse ratio of FlagGems vs CUDA:13%Speedup:FlagGems vs.CUDA library FlagGems 成为PyTorch基金会生态合作项目,目前平均每周用户下载2000次FlagOS1.6版本(2026年1月9日发布)新增138个高性能Triton算子,Fl
5、agGems算子总数将超过360个,其中296个算子性能达到或超过CUDA原生算子。7家国产厂商适配FlagGems算子,基于FlagTree统一编译器,全部测试超过220个算子,以确保技术的泛化性GPU AGPU BGPU CGPU DDSA ADSA BDSA C112%107%104%95%96%80%79%基于FlagTree统一编译器,7家国产厂商适配FlagGems算子相比厂商原生算子加速比中位数.FlagOSFlagOS统一通信库:统一通信库:FlagCXFlagCX通信运行时层可移植抽象层用户接口层各类分布式应用与框架不同插件通信功能调用接口通信编程语言接口服务组件高层通信函数
6、(Function)RoutinesSchedulerOptimizer中层通信操作(Operation)Collective OpsP2P OpsFused OpsCommunicatorManagement底层通信原语(Primitive)Host-side PrimitivesDevice-side PrimitivesThird-party PrimitivesProxyTopologySimulatorMonitorCCLAdaptorDeviceAdaptorNetAdaptorTunerAdaptorP2PAdaptor.硬件类型GPGPUASICSuperPod互联协议PCIe