1、端侧智能模型架构设计与算法改进演讲人:刘凡平01020304端侧智能的兴起与挑战端侧大模型的架构设计方向端侧场景的基础算法改进思路端侧智能的未来发展趋势展望01端侧智能的兴起与挑战引入:从云端智能到端侧智能的演进路径端侧大模型定义端侧大模型是一种在终端设备上进行本地私有化部署的人工智能模型,其核心能力在于基于多模态感知实现自主学习与记忆,以提供个性化服务并保障数据隐私与运行安全。端侧大模型不等于云端大模型的小参数版本自主学习和记忆能力才是核心!低延迟数据隐私离线可用降低成本个性化与定制实时交互体验(语音助手、智能输入法、AR应用)用户数据无需上传云端,本地处理更安全无网络或弱网络环境下也能工作
2、减少对云端计算资源的依赖基于本地交互数据进行自主学习亿/人民币元2028E2027E2026E2025E202320241800015000120009000600030000数据来源:深圳新闻网,中安网,中国知网,数字信息安防产业技术创新联盟,长沙优来电子科技有限公司,OPPO,联想,三星,嘉德智能端侧AI行业规模端侧AI持续持续扩大核心挑战计算资源有限实时性要求高能耗敏感内存限制无法自主学习记忆缺失数据隐私.算力鸿沟、内存溢出、运行时延、功耗爆炸云端大模型难以部署到端侧DatasetProcessingNeural NetworkTrained ModelEdge AI Processor
3、让世界上每一台设备拥有自己的智能!欢迎友商跟随,让端侧应用成为行业共识。02端侧大模型架构设计方向传统模型优化的基本原则:少算、快算、省能1、激活函数与优化器的轻量化改进(如ReLU6,AdamW替代);2、数据稀疏性与动态计算路径;3、模型微调方式:LoRA、Adapter、Prompt Tuning 的端侧适配;4、模型鲁棒性增强:对抗样本防御与小样本学习策略;5、注意力机制的高效替代:线性Attention、Performer、Linformer等;6、高效卷积替代:Depthwise Conv、Group Conv等;7、核心模型+轻量子模型。如何让“大模型”跑在“小设备”上?剪枝糟糕
4、的三部曲:量化蒸馏网络架构轻量化设计?网络架构优化:轻量模型设计(MobileNet,ShuffleNet,EfficientNet-Lite)1Transformer在端侧的轻量化尝试(TinyBERT,MobileBERT,DistilBERT)2神经架构搜索(NAS)在端侧的实践(ProxylessNAS,Once-for-All)3CNN与Transformer混合架构4算子融合示例针对Transformer的结构特点,算子融合主要分为4类:归一化层和QKV横向融合,自注意力计算融合,残差连接、归一化层、全连接层和激活层融合,偏置加法和残差连接融合。Transformer层中的算子融合
5、示意图混合专家机制?动态路由选择,减少计算负载。1991年的论文Adaptive Mixtures of Local Experts:“This idea was first presented by Jacobs and Hinton at the Connectionist Summer School in Pittsburg in 1988.”Google在2017年1月发布了Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layer,把MoE带进了LSTM,训出了最大137B参数,专家数达
6、到128k的LSTM模型。结构优化思路轻量化网络设计:MobileNetV3、EfficientFormer、TinyBERT;混合专家机制(MoE):动态路由选择,减少计算负载;层级裁剪(Structured Pruning):通道、头部、Block级别剪枝;蒸馏策略(Task-aware Distillation):强化特定下游任务表现。参数压缩与量化策略Post-training Quantization(PTQ):离线量化,部署灵活;Quantization-aware Training(QAT):训练阶段模拟量化误差;Bit-width探索:INT8、INT4、甚至Binary;混合