当前位置:首页 > 报告详情

孟令公-DeepSeek在得物部署的应用与优化实践.pdf

上传人: 哆哆 编号:631130 2025-04-19 53页 22.50MB

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit孟孟令令公公 得得物物机机器器学学习习高高级级专专家家主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地,曾在得物技术公众号发表过多篇高质量大模型相关文章,比如:利用多Lora节省大模型部署成本,KubeAI大

2、模型推理加速实践,得物大模型平台接入最佳实践。演演讲讲主主题题:D De ee ep pS Se ee ek k在在得得物物部部署署的的应应用用与与优优化化实实践践ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会DeepSeek在在得得物物部部署署优优化化实实践践得物 孟令公ML-SummitML-Summit目目录录0 02 2 如如何何设设计计高高性性能能的的大大模模型型推推理理引引擎擎0 03 3 解解决决显显存存碎碎片片问问题题,大大幅幅提提升升吞吞吐吐P Pa ag ge ed d A At tt te en nt ti io on n0 04 4

3、缓缓存存之之前前请请求求的的计计算算结结果果,减减少少重重复复计计算算R Ra ad di ix x A At tt te en nt ti io on n 0 06 6 使使用用多多卡卡推推理理,推推理理速速度度翻翻倍倍0 01 1 背背景景0 07 7 小小模模型型推推理理+大大模模型型验验证证推测解解码码0 05 5 请请求求分分块块处处理理,避避免免单单个个请请求求卡卡顿顿C Ch hu un nk ke ed d P Pr re ef fi il ll lML-SummitML-Summit目目录录0 09 9 D De ee ep pS Se ee ek k:MMT TP P与与推

4、推测测解解码码1 10 0 D De ee ep pS Se ee ek k:单单机机部部署署与与双双机机部部署署1 11 1 得得物物大大模模型型训训练练推推理理平平台台:一一键键发发起起微微调调训训练练与与推推理理部部署署 1 13 3 总总结结与与展展望望0 08 8 D De ee ep pS Se ee ek k:专专家家并并行行 V VS S T Te en ns so or r并并行行1 12 2 得得物物大大模模型型训训练练推推理理平平台台:多多l lo or ra a部部署署方方式式ML-SummitML-Summit背景 Deepseek-r1等大模型的火爆标志着本地部署大

5、模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析。同时,我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区,但我们希望大家能更多关注这些优化背后的思思路路。ML-SummitML-Summit背景吞吐量 传统上,我们用每秒请求数(QPS)来衡量吞吐量,即系统每秒能够处理多少请求。大模型有一个重要指标每秒Token数(tokens/s),它反映了系统每秒能处理的输入或输出Token数量。响应时间 系统处理每个请求所需的时间。大模型有一个指标首个Token到达时间(TTFT:Time To First Token

6、),即从开始处理请求到输出第一个Token所需的时间。大大模模型型推推理理性性能能的的两两个个关关键键指指标标ML-SummitML-Summit如何设计高性能的大模型推理引擎性能足够高 CPU与GPU分离设计扩展性好 模块高内聚低耦合ML-SummitML-Summit如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中,CPU密集型任务与GPU任务会争夺GIL,导致GPU利用率低和高并发场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁(GIL)带来的性能瓶颈问题。3.通过分离CPU与GPU,避免了GIL竞争,从而提升了GPU任务的执行效率和系统性能。C

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了大型模型推理加速的技术和方法。核心数据包括:使用Paged Attention和Radix Attention可以大幅提升吞吐量,与HuggingFace Transformers相比,吞吐量可提升至24倍;与HuggingFace TGI相比,提升可达3.5倍。多卡并行可以显著提升大模型推理速度与QPS。专家并行与Tensor并行是优化大模型推理性能的两个关键方法。此外,文章还介绍了DeepSeek在得物部署的应用与优化实践,以及大模型训练平台的一键发起微调训练与推理部署等内容。
"大模型推理如何实现加速?" "DeepSeek-r1如何高效部署?" "大模型训练平台如何兼容不同训练框架?"
客服
商务合作
小程序
服务号
折叠