1、把握DeepSeek时刻,携手同行华为昇腾AI解决方案汇报2025年2月Huawei Proprietary-Restricted Distribution22华为昇腾AI基础软硬件介绍DeepSeek洞察及昇腾适配进展1C目录ONTENTSHuawei Proprietary-Restricted Distribution3DeepSeek是AI发展史上的一个关键里程碑,但远未达到AI终点重新定义Scaling Law延续智能涌现的方向泛化性和经济性大幅提升LLM进入“CV Resnet时刻”补齐最后一块自主创新的版图真正形成中美两条AI技术路线双轮驱动互锁战略坚定+技术创新国家战略清晰技术
2、创新依赖资本投入AI芯片:NV、AMD互联技术:NV Link异构计算架构:CUDAAI框架:PY、TF AI模型算法:GPT、LLaMAAI芯片:昇腾、寒武纪互联技术:灵衢异构计算架构:CANNAI框架:昇思、飞桨AI模型算法:DeepSeek 中国AI公司首次以关键创新贡献者的身份加入到全球AI竞争中,冲击美国AI霸权 打破NV+OpenAI的资金、技术、人才的垄断,全球重新思考中美技术路线的选择DeepSeek-R1进一步验证“算力即性能”Scaling Law升级,模型能力=算力 x 数据 x 思考+逻辑推理DeepSeek-V3/R1OpenAI-o1/o3算力 x 数据模型效果训练
3、资源算力 x 数据 x 思考下一代AI技术Mamba、空间智能等 随着DeepSeek提供了一种高效率训练的方法,同等算力规模可以探索更强的模型能力 在竞争背景下,头部玩家仍将追逐Scaling Law,坚定AI算力的战略投资,加速探索下一代AI技术CV计算机视觉1998 LeNet首个CNN架构模型2012 AlexNet模型能力突破开启CV时代2015 Resnet效率与成本双突破CV全面普及NLP自然语言处理2017 谷歌发布首个Transformer架构模型2023 ChatGPT模型能力突破开启NLP时代2025 DeepSeek效率与成本双突破NLP全面普及 DS对强化学习的创新使
4、用,可以让大模型便捷的获得通用性+专用性,可以满足各应用场景需求 DS对通过从模型结构到训推全流程的极致工程优化,大幅提升AI的计算效率,提升模型落地经济性Huawei Proprietary-Restricted Distribution4DeepSeek V3:实现极致性能,稀疏MOE提质降本DeepSeek-V3是一款MoE模型,总参数量671B,激活参数量37B,采用2048张H800(节点内NVLink,节点间IB,非超节点架构)在14.8T token数据集上基于自研 HAI-LLM 训练系统总计训练了1394h(58.08天)低成本完美对标OpenAI O1,突破精确语义理解及复
5、杂推理任务绕过CUDA挖掘FP8硬件潜力,MOE和MLA技术实现不到10%的成本方案性能优低成本技术创新150M$Llama3.1-405B训练成本5.57M$DeepSeekV3训练成本DeepSeek-R1推理成本仅为OpenAI o1的3%数学、科学和代码等领域领先业界,成为业界公认的LLM的领先模型来源:DeepSeek模型测试数据&互联网硬件级、算法级、架构级、工程级、开源生态5大技术创新,轰动全球硬件级优化算法革命架构创新工程奇迹开源生态 绕过GUDA进行PTX编程 计算与通信优化,性能提升30%GRPO:群体进化的智慧筛选器 自我验证机制:AI的错题本系统 混合专家模型的智能路由
6、器“多头潜在注意力MLA:空间压缩术 训练框架加速:16到3的量化压缩,通信降低89%推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能Huawei Proprietary-Restricted Distribution5DeepSeek R1:在Reasoning任务达到了世界水平(OpenAI-o1)DeepSeek-R1以DeepSeek-V3 Base(671B)为基础模型,使用GRPO算法作为RL框架来提升Reasoning性能以2阶段SFT+2阶段RL完成,从而解决R1-Zero可读性差、多种语言混合问题本次开源同时发布了6个基于DeepSe