1、飞桨大模型推理实践从集中式部署到分离式部署架构演进蒋佳军目录0104飞桨大模型推理部署背景02集中式部署架构优化03分离式部署架构优化总结与展望01飞桨大模型推理背景大模型推理需求激增GoogleGoogle 20252025 年第二季度月年第二季度月处理处理TokenToken 量量推理Token 调用量推理服务器需求大模型RL 训练思考模型思考模型RLRL 训练中推理耗时训练中推理耗时占比占比IDCIDC 预测推理工作负载占比预测推理工作负载占比980万亿80%+73%数据来源:IDC|浪潮信息 2025 年 中国人工智能计算力发展评估报告数据来源:GoogleQ2 earningscal
2、l:CEOsremarks大模型推理基础流程Decode阶段的Batch请求Decode阶段的Batch请求新插入的Prefill阶段请求插入新的请求Prefill与Decode 混合Batch:动态插入提升吞吐Decode阶段计算中StepDecode阶段已完成StepPrefill阶段正在计算PD 分离:模型推理拆为Prefill、KVCache 传输和Decode 三个独立阶段PrefillNodePrefillNodeP/D调度DecodeNodeDecodeNodeDecodeNode请求分配P/D组合KV Cache传输集中式部署集中式部署分离式部署分离式部署存储换计算:KV 向量
3、缓存加速Decode 计算Decode Step读取已计算的KV向量写入新计算的KV向量显存池FastDeploy:飞桨高效大模型推理工具FastDeployPaddlePaddlePaddlePaddle模型支持模型支持使用界面使用界面推理服务推理服务缓存管理缓存管理推理优化推理优化量化策略量化策略ERNIE 4.5QwenDeepSeek兼容vLLM 的离线推理接口兼容OpenAI 协议的服务协议大规模P/D 分离分块预填充上下文缓存多机负载均衡多级缓存索引缓存异步LRU 汰换自适应增量传输并行策略高性能通信稀疏注意力CUDAGraphCINN 编译优化投机解码仅权重量化注意力机制量化权重
4、激活量化KV Cache 量化生态兼容的统一接口设计飞桨CINN编译器结合图优化高性能低比特量化推理低时延高吞吐投机解码框架大规模多机PD分离架构多国产化硬件后端支持02集中式部署架构优化集中式部署架构优化Weight Only INT8/INT4注意力量化KVCache 量化W4A8MEPC量化Weight Only NT2 CCQ 量化量化压缩分布式上下文缓存分块预填充图优化与CUDAGraph投机解码多头解码稀疏注意力 PLAS国产芯片P800混合精度计算INT8高性能优化查表计算优化量化压缩:WINT2 压缩算法CCQ(ConvolutionalCodeQuantization)模型模
5、型权重权重ERNIE-4.5-21B-A3B42GBERNIE-4.5-VL-28B-A3B55GBERNIE-4.5-300B-A47B562GBERNIE-4.5-VL-424B-A47B789GB0204060模型权重激活值KV Cache大模型推理大模型推理显存显存占用比例占用比例(GB)GB)ERNIE-4.5-21B-A3B 模型A800 单卡BF16 部署权重显存占用超过50%文心系列模型权重大小对比Weight(BF16)Weight(INT4/INT8)ScaleRound(W/S)Weight(INT4/INT8)Round(W*S)Weight(BF16)ScaleAct
6、ivation(BF16)x加载时量化为INT4/INT8 精度降低权重显存占用Kernel读取Weight 反量化为BF16 计算保障精度3.57.29.5-3011.318.531321.3111加载过程在线量化计算过程反量化4796127-12748781279450.0750.2362.4653.57.29.5-3011.318.431322.2111Weight(BF16)ScaleWeight(INT8)Weight(BF16)量化压缩:WINT2 压缩算法CCQ(ConvolutionalCodeQuantization)将向量分组映射,得到“索引表索引表”和“码本码本”,保留向