1、演讲嘉宾:裴瑞光文件密级:机密背景基于Transformer架构的大模型由于其在文本理解,语言生成,任务推理与以及多模态上展现出极强的能力;在这个过程中,考虑到个性化,隐私,网络以及成本问题个性化,隐私,网络以及成本问题,相对于云端大模型推理,端上大模型推理逐渐扮演越来越重要的角色。端侧大模型市场将逐步增长个性化场景下,用户更偏向于使用端侧模型能力端侧大模型需有强需求场景12024年中国端侧大模型行业研究:算力优化与效率革命2On-Device Language Models:A Comprehensive Review文件密级:机密为什么需要端上大模型?无网络仍可工作隐私保护强大的模型能力更
2、成熟的技术架构端侧几乎无负载端云协同端LLM云LLM成本更低端和云LLM推理互有互补;可以通过协同的方式进行能力补足1Apple intelligence2华为AI白皮书文件密级:机密端上SLM模型发展2023年前2023全年2024年中Megatron-LM-1.3bTiny-BERT-14.5mT5-3bGPT-Neo-2.7bGemma-2bFox-1.6bQwen2-1.5bOpenELM-3.04bPhi-3-3.8bOLMo-1bMobile LLMs-250mGemma2-2bMobiLlamma-0.5bStable LM 2-1.6bTinyLlama-1.1bGemini-
3、Nano-3.25bStable LM 2-3bOpen LM-3bPhi-2-2.7bPhi-1-1.3bRWKV-3bCerebras-GPT-3bOPT-2.7bLamini-LM-1.5bQwen-1.8b4B 模型最高评分27,快速提升vs.云侧模型最高评分36-47,由70b左右模型主导SLM模型发展迅速,为端侧大模型推理发展打下坚实基础Pythia-2.8bGalactica-1.3bBLOOM-3bMobileBERT-25.3mBART-0.4bDistilBERT-66m模型数量各大公司持续投入推进SLMs演进,学术界SLMs模型也大量涌出Decoder-only架构主导E
4、ncoder-DecoderEncoder-onlyDecoder-only1Huggingface leaderboard文件密级:机密端上大模型面临的困难与关键指标端上面临的大模型推理困难有:1.耗电 2.计算能力不强:处理多任务,首字时延3.模型能力不够关键指标:Acc TTFT TBT J/token(电量)内存峰值在系统优化与端云协同方面,大模型因为其特性会带来更多挑战。文件密级:机密文件密级:机密长文本问题:KVcache重用prefillKV first token predictorpromptcache通过将prompt转换为schema的结构化形式,并预计算大量kvcach
5、e,只需将单次变化的query计算新的kv并填入即可获取当前attentionstate。显然,较适合agent场景。该方案可将时延降低至1335%,但需要提前计算模板kvcache通过微调过的同系小模型生成代理kv,并通过预测器(MLP)来预测大模型每层的kvcache,提供了一种可以加速首字推理的方案。该方案可将时延降低50%左右,但需要训练代理模型以及精度会稍有下降。1Prompt Cache:Modular Attention Reuse for Low-Latency Inference 20242KV Prediction for Improved Time to First To
6、ken.apple 2024文件密级:机密KVcache重用decodeLLMaaSLLM作为一个服务独立于其他app而运行;app被挂起和恢复时可进行相关session kvcache的存储与恢复,支持快速session切换;通过swap-recompute复合的方式载入kvcache。prefixcache考虑到多轮对话,TOT等prompt的形式,将前缀kvcache保存下来,是一种朴素的优化方案已经应用大绝大多数推理引擎之中。1LLM as a Service on device.20242SGLang:Efficient Execution of Structured Languag