《AICon北京2025-OPPO-宋晓辉.pdf》由会员分享,可在线阅读,更多相关《AICon北京2025-OPPO-宋晓辉.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、OPPO OPPO 多模态大模型端侧化多模态大模型端侧化应用实践应用实践演讲人:宋晓辉目录目录010203040506端侧化算法技术概览模型稀疏化压缩量化感知训练编解码加速落地实践总结和展望01端侧化算法技术概览端侧化算法技术概览模型端侧落地的困难模型端侧落地的困难珍贵的内存终端设备内存有限,算法效果需要一定程度上向模型体积和推理精度妥协,因此如何设计和优化端侧模型压缩算法,利用有限的内存占用获得最佳的算法效果,为用户提供流畅、好用的端侧AI功能,是端侧化算法持续追求的目标之一。有限的电量为用户提供端侧AI能力的同时,也不能成为“电老虎”,不能制造续航焦虑,持续的下探端侧AI的能耗水平,需要端
2、侧算法、工程和芯片团队的共同努力。较高的OTA成本端侧模型体积大,不能高频OTA更新,同时缺乏运营日志,难以敏捷迭代修复问题。因此端侧业务的交付,需要在算法质量,稳定性,性能功耗热等多个维度进行严格的测试。强耦合的业务为了减少对用户手机ROM空间的占用,所有端侧算法能力共用同一个基模型,因此基模型迭代需要和众多业务需要保持相同的节奏,这对工程进度管理,算法的迭代和测试验收都是很大的考验。模型端侧化算法技术概览模型端侧化算法技术概览02模型稀疏化压缩模型稀疏化压缩模型稀疏化模型稀疏化结构化稀疏结构化稀疏-L0L0正则化方法正则化方法为每个参数学习一个可微分的门控值(01),训练中自动识别重要参数
3、(门控1)和冗余参数(门控0),实现端到端的稀疏化学习核心思想结构化稀疏结构化稀疏-L0L0正则化方法正则化方法收敛速度慢,对数据规模要求比较高,mask 的优化速度和模型权重的优化速度不好均衡均匀分布的噪声均值太高,噪声波动影响的参数量较大(类似dropout),无法适用于剪枝比例比较大的情况(例如90%以上)为了达成剪枝目标,会产生较多0-1之间的mask,剩余参数存在浪费,影响剪枝后模型的效果如何让lm_loss通过mask 对权重的评估更快、更准确Mask 的噪声分布设计和实现概率累积分布函数的设计和实现缺点优化方向核心优化思路把L0正则化剪枝直接通过梯度下降获得0-1二值mask 转
4、换为两阶段问题:排序:通过梯度下降评估参数重要程度,体现在mask 数值的排序上剪枝:通过soft top-k mask 将排序结果渐进的转化为0-1二值序列具体改进措施加入梯度缩放因子,将mask 从0-1映射到更小的范围,e.g.(0,1e-3,并通过伪输入技巧将mask 引入到lm_loss的优化过程中,让mask 对模型效果感知更强,提升优化效率。使用加入直通估计的hardtanh,更加充分的利用mask 的梯度信息。重写噪声采样逻辑,转变噪声分布,并限制噪声的绝对值的上限,仅用于评估重要性,不致力于产生二值mask。整合了Hard Concrete Distribution 和sof
5、t-topk-mask 的思路,设计了一些列辅助函数,保证剪枝目标达成并且不浪费参数。排序和剪枝两个阶段在训练过程中动态交替进行,实现了较为平缓的剪枝过程。结构化稀疏结构化稀疏-落地实践落地实践基于OPPO的L0改进算法,从Qwen2-7B 剪枝到4B,超过了Qwen1.5-4B 的效果。L0正则化剪枝在Qwen7B-4B的结果在ColorOSColorOS15.015.0的端侧基模型剪枝和解码加速的draft model上都有应用。支撑OPPOOPPO智慧语音端侧化业务。非结构化稀疏(内存压缩)非结构化稀疏(内存压缩)权重稀疏化过程稀疏化训练过程稀疏化训练策略非结构化稀疏非结构化稀疏-算法效
6、果算法效果在AndesVL-4B 模型分别进行了 50%、65%、70%和 75%四个稀疏度的模型训练,并在image caption和多模态信息抽取任务上进行效果验证:1.50%50%稀疏度模型在两项测试任务中表现优异,其综合性能指标与原始稠密模型基本持平,甚至展现出轻微的性能优势,表明适度的稀疏化可能带来正则化效应。2.随着稀疏度提升至 65%-75%,模型性能呈现可控范围内的温和下降,性能衰减曲线显示:稀疏度每增加 15%,性能损失约 2-3 个百分点,即使在 75%75%的较高稀疏度下,模型仍保持核心能力,各项关键指标的下滑幅度均小于 5%5%,为模型部署提供了显著的效率提升空间。非结