1、构建AGI时代的推理基础设施单一舟 华为云演讲嘉宾单一舟华为云架构与技术创新部架构师华为云架设部架构师,博士毕业于加州大学圣地亚哥分校.研究方向围绕提升数据中心基础设施性价比,包括大模型推理系统,分离式内存,大规模分布式存储系统等.在华为云主导云存储硬件卸载项目和Serverless大模型推理项目.在顶级学术会议发表论文20+,研究曾获得OSDI 2018,SYSTOR 2019,FPAG 2024 Runner Up最佳论文.“1000个哈姆雷特”“快了”关于通用人工智能的两个”事实”走向AGI的三个简单步骤训练对齐推理训练出高质量模型 是开始如何大规模低成本高性能推理是 关键本次Talk重
2、点LLMModel ServingLLMAgent ServingOutline1.整体介绍/CAP理论2.LLM Model Serving3.LLM Agent Serving4.总结数据中心如何部署推理系统?推理请求服务端服务端客户端客户端LLM Model Serving 集群集群大规模AI集群GPU/NPU加速卡(千卡万卡集群)LLM Agent Serving 集群集群普通服务器推理系统有什么挑战?我们总结为 CAP Principle ContextAccuracyPerformanceAPCACPModel MemoryPositional EmbeddingFound-in-
3、the-middleSparsityQuantizationModel PruningDistributed Accl.Prompt PruningAgent Memory长度(Context)精度(Accuracy)性能(Perf)最大的挑战:推理系统要优化三个目标,但这三个目标冲突不自恰!*目前业界推理优化都能映射到CAP,但没有一个CAP自恰的优化*受经典的分布式系统CAP原则启发LLMModel ServingLLMAgent ServingOutline1.介绍2.LLM Model Serving3.LLM Agent Serving4.未来LLM Model Serving 核心
4、指标是什么?性价比“我能跑推理”(小规模,单租,高成本)规模成本“我能卖推理”(大规模、多租、低成本)10100倍性价比差距*GPT-4$60/MToken$15/MTokenGPT-4oGPT-3.5$1.5/MTokenhttps:/ Serving性价比挑战是什么?模型架构与芯片架构的冲突Transformer大模型AI 芯片+芯片存算比芯片容算比芯片连算比大模型全量计算算力和带宽不匹配算力和容量不匹配算力和网络不匹配大模型增量计算大模型组合计算+算力瓶颈内存瓶颈调度瓶颈PD合一全量Only增量OnlycachePD合一全量Only增量Onlycache异构实例,有状态推理123以存代算
5、,缓解大模型全量推理的算力瓶颈,降低首字时延,提升用户体验GPUAI CoreCPU DRAMPrefix KV$Prefix KV$Prefix KV$Engine Scheduler推理引擎Cache ManagerReqlookupIndexRead/WriteAI服务器HBMPrefix KV$Prefix KV$Prefix KV$Prefix KV$解决的问题:在许多应用场景,用户Prompt存在大量重复前缀,因此大模型全量计算时会存在大量的重复计算,导致首字时延高(time-to-firs-token).多轮对话/RAG/Multi-Agent等大模型应用解决的思路:将推理过程中
6、产生的临时数据(KV Cache)缓存起来,在用户下一次调用推理时检索是否有缓存的数据,若有,则无需计算直接使用已有的缓存,加速TTFT.实现和效果:实现的实体是Cache Manager(CM),CM内部有一颗索引树,管理HBM和DRAM空间,等功能某语音助手推理场景降低首字时延 60%时延(s)无缓存有缓存介绍架构相关工作:SGLang,Pensieve分离式内存弹性伸缩,解决大模型推理的内存墙,降低推理集群成本GPUNPUGPUGPUGPUNPUGPUGPUCPUDRAMAI服务器GPUNPUGPUNPUGPUNPUGPUNPUCPUDRAMAI服务器GPUNPUGPUGPUGPUNPU