报告预览

裴瑞光-端上大模型推理.pdf

编号：178921

PDF 20页 2.65MB 下载积分：VIP专享

下载报告请您先登录！

裴瑞光-端上大模型推理.pdf

1、演讲嘉宾：裴瑞光文件密级：机密背景基于Transformer架构的大模型由于其在文本理解，语言生成，任务推理与以及多模态上展现出极强的能力；在这个过程中，考虑到个性化，隐私，网络以及成本问题个性化，隐私，网络以及成本问题，相对于云端大模型推理，端上大模型推理逐渐扮演越来越重要的角色。端侧大模型市场将逐步增长个性化场景下，用户更偏向于使用端侧模型能力端侧大模型需有强需求场景12024年中国端侧大模型行业研究：算力优化与效率革命2On-Device Language Models:A Comprehensive Review文件密级：机密为什么需要端上大模型？无网络仍可工作隐私保护强大的模型能力更

2、成熟的技术架构端侧几乎无负载端云协同端LLM云LLM成本更低端和云LLM推理互有互补；可以通过协同的方式进行能力补足1Apple intelligence2华为AI白皮书文件密级：机密端上SLM模型发展2023年前2023全年2024年中Megatron-LM-1.3bTiny-BERT-14.5mT5-3bGPT-Neo-2.7bGemma-2bFox-1.6bQwen2-1.5bOpenELM-3.04bPhi-3-3.8bOLMo-1bMobile LLMs-250mGemma2-2bMobiLlamma-0.5bStable LM 2-1.6bTinyLlama-1.1bGemini-

3、Nano-3.25bStable LM 2-3bOpen LM-3bPhi-2-2.7bPhi-1-1.3bRWKV-3bCerebras-GPT-3bOPT-2.7bLamini-LM-1.5bQwen-1.8b4B 模型最高评分27，快速提升vs.云侧模型最高评分36-47，由70b左右模型主导SLM模型发展迅速，为端侧大模型推理发展打下坚实基础Pythia-2.8bGalactica-1.3bBLOOM-3bMobileBERT-25.3mBART-0.4bDistilBERT-66m模型数量各大公司持续投入推进SLMs演进，学术界SLMs模型也大量涌出Decoder-only架构主导E

4、ncoder-DecoderEncoder-onlyDecoder-only1Huggingface leaderboard文件密级：机密端上大模型面临的困难与关键指标端上面临的大模型推理困难有：1.耗电 2.计算能力不强：处理多任务，首字时延3.模型能力不够关键指标：Acc TTFT TBT J/token(电量)内存峰值在系统优化与端云协同方面，大模型因为其特性会带来更多挑战。文件密级：机密文件密级：机密长文本问题：KVcache重用prefillKV first token predictorpromptcache通过将prompt转换为schema的结构化形式，并预计算大量kvcach

5、e，只需将单次变化的query计算新的kv并填入即可获取当前attentionstate。显然，较适合agent场景。该方案可将时延降低至1335%，但需要提前计算模板kvcache通过微调过的同系小模型生成代理kv，并通过预测器（MLP）来预测大模型每层的kvcache，提供了一种可以加速首字推理的方案。该方案可将时延降低50%左右，但需要训练代理模型以及精度会稍有下降。1Prompt Cache:Modular Attention Reuse for Low-Latency Inference 20242KV Prediction for Improved Time to First To

6、ken.apple 2024文件密级：机密KVcache重用decodeLLMaaSLLM作为一个服务独立于其他app而运行；app被挂起和恢复时可进行相关session kvcache的存储与恢复，支持快速session切换；通过swap-recompute复合的方式载入kvcache。prefixcache考虑到多轮对话，TOT等prompt的形式，将前缀kvcache保存下来，是一种朴素的优化方案已经应用大绝大多数推理引擎之中。1LLM as a Service on device.20242SGLang:Efficient Execution of Structured Languag

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（裴瑞光-端上大模型推理.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。