《track1-芯速度-产业模型端侧部署零时差-英特尔-张宇.pdf》由会员分享,可在线阅读,更多相关《track1-芯速度-产业模型端侧部署零时差-英特尔-张宇.pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、芯速度:产业模型端侧部署零时差张宇 博士英特尔中国区客户计算事业部边缘计算CTO英特尔高级首席AI工程师050000010000001500000200000025000003000000199419982002200620102014201920212024Top1超算峰值性能 1994-2024(TFlop/s)巨量训练数据快速增长算力Source:TOP500.orgAI快速演进 2012+AI模型演进 2012+50MAI Model Size500M200B20122017201820202022AlexNet(60M)BERT(340M)GPT-3(175B)GPT-4(?)5B2
2、024Sora(?)Transformer2025Deepseek R1(671B)客户端和边缘AI的演进AI Co-Pilots阶段代码生成,机器视觉(缺陷检测,交通管理等)AI做为人类的辅助,在事先设定好的程序指引下工作.AI 辅助人类现在医疗诊断,智能客服等AI助手通过对数据的深度分析提高人类行为能力AI 助手阶段AI 增强人类能力明天老人照看,L5级自动驾驶等AI作为自主代理,能够感知人类的意图,自主产生解决问题的思路和策略来满足人类的需求自主 AI阶段AI 作为人类的自主代理未来AI 行业 助手AI 自主代理AI Co-Pilot随着AI在垂直行业的快速部署与多模态数据越来越多地使用
3、,其价值将呈指数级快速增长提升效率提高工作质量提供沉浸式的用户体验Modern Gaming FeaturesBest-in-Class Performance per DollarAIAccelerationB-Series2N D G E N为高效重新设计+50%性能/瓦特+70%性能/Xe核英特尔对国内外新的端侧模型的快速支持2024年4月,Day 0日支持Llama 32025年1月,第一时间支持DeepSeek本地模型2024年12月,Day 0日支持ChatGLM-Edge系列模型2024年5月,Day 0日支持Phi-3模型https:/ AI Platforms Acceler
4、ate Microsoft Phi-3 GenAI Models-Intel Newsroom英特尔支持智谱全新端侧模型 推动AI行业持续发展-51CTO.COM接入 DeepSeek 本地大模型,酷睿Ultra Flowy AI 助手让工作效率加倍英特尔第一时间深度优化Qwen3大模型,升级边缘AI能力赋能多样化场景1.稀疏MoE模型深度优化,端侧高效部署Qwen3-在ARL-H+64G内存部署的30B的MoE模型,吞吐量最高可达33.97token/s2.首次在NPU上Day 0支持大模型,提供更好的性能和功耗表现-LNL全面支持0.6B到8B参数量模型,吞吐量最高达到36.68token
5、/s3.端侧微调,提升模型智能,优化用户体验4.动态稀疏注意力赋能Qwen3长上下文窗口,解锁端侧Agent新应用5.拥抱开源生态,Day 0支持魔搭社区Ollamahttps:/ 1Expert 2Expert 256Expert 1Expert 2Expert 256Expert 1Expert 2Expert 256SharedExpertSelf AttentionRouterLayer NormExpert 1Expert 2Expert 256GPU:高计算强度,高频,低存储需求DecodeCPU:低计算强度,高存储需求根据使用频次分层存储至内存、SDD等不同区域IOMP优化延迟降
6、低10%MoE专家Intel AVXVNNI指令集CPU矩阵乘法加速22%内存占用140G-110GMoE专家LRU策略基于KTransformers框架深度优化 MoE专家模型内存加载LRU优化进一步使DeepSeek-R1内存占用降低至110G实现消费级设备的内存(128G)即可部署671B的DeepSeek-R1 常驻显存:共享专家 注意力模块 Dense层常驻内存:前层MoE专家 Decode映射动态内存:近期使用专家后层MoE专家 高频使用专家SSD Swap:后层MoE专家 低频使用专家显存/内存分层调