当前位置:首页 > 报告详情

高效且高度可配置的大模型推理引擎与服务-史树明.pdf

上传人: 张** 编号:153231 2024-01-15 36页 4.96MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大模型推理引擎的关键需求及核心技术,包括推理速度、吞吐率、显存/内存占用、易用性/多模型支持、算子融合、高效张量运算、KV缓存、动态批处理、推测解码、多卡推理、量化、权重量化等。文中详细阐述了如何通过算子融合、动态批处理、推测解码、多卡推理、量化等手段来提高推理速度和吞吐率,同时降低显存/内存占用。此外,还介绍了如何通过分组查询注意力、Flash decoding等解码策略来提高结果质量。最后,文章还介绍了一种基于原子技术点的组合泛化框架,可以高度可配置地支持不同的大模型推理。
高效大模型推理引擎如何实现? 推理引擎如何支持多种大模型? 大模型如何进行高效推理?
客服
商务合作
小程序
服务号
折叠