1、DeepSeekDeepSeek对国产芯片的影响对国产芯片的影响科智咨询云网研究事业部科智咨询云网研究事业部 苏长飞苏长飞2025年4月目录目录010203DeepSeekDeepSeek技术创新技术创新DeepSeekDeepSeek对国产芯片的影响对国产芯片的影响国产芯片面临的挑战和发展机遇国产芯片面临的挑战和发展机遇2 2025 科智咨询.All rights reserved.DeepSeek出现的影响3数据来源:公开信息DeepSeek的出现标志着我国在生成式AI领域达到世界领先级别全球全球APPAPP增长增长1 1亿用户所需时间亿用户所需时间DeepSeekDeepSeek与与Ch
2、atGPTChatGPT移动端全球移动端全球DAUDAU对比情况对比情况 2025 科智咨询.All rights reserved.DeepSeek主要技术创新点4架构创新Multi-Head Latent Attention(MLA)Multi-Head Latent Attention(MLA)MLA的核心在于通过低秩联合压缩来减少注意力键(keys)和值(values)在推理过程中的缓存,从而提高推理效率无辅助损失负载平衡的无辅助损失负载平衡的DeepSeekMoEDeepSeekMoE DeepSeek-V3 提出了一种无辅助损失的负载均衡策略(Loss-Free Balancing
3、),通过动态调整每个专家的偏差来控制负载平衡,而不引入干扰梯度。减少因鼓励负载均衡而对模型性能产生的负面影响。数据来源:DeepSeek论文 2025 科智咨询.All rights reserved.DeepSeek主要技术创新点5软硬协同工程优化1/2多多tokentoken预测(预测(Multi-Token Prediction,MTPMulti-Token Prediction,MTP)主流大模型 token-by-token 生成序列,而每次 token 生成需要频繁与访存交互,从而因为访存效率形成训练或推理的瓶颈。MTP 方法主要将单 token 的生成,转变成多 token 的生
4、成,提升训练和推理的性能。DeepSeek 主要对传统 MTP 算法进行了一定优化,顺序预测额外 token,并在每个预测深度保持完整的因果链。数据来源:DeepSeek论文FP8 FP8 混合精度训练框架混合精度训练框架 在DeepSeek的训练过程中,绝大多数核心计算核(即通用矩阵乘法GEMM操作)均以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并输出BF16或FP32格式的结果。如下图所示,与线性算子(Linear operator)相关的三个GEMM运算前向传播(Fprop)、激活梯度反向传播(Dgrad)和权重梯度反向传播(Wgrad)都采用FP8精度执行。对以下模块维持
5、原有精度(如BF16或FP32):嵌入模块(embedding module)、输出头(output head)、混合专家门控模块(MoE gating modules)、标准化算子(normalization operators)以及注意力算子(attention operators)。(尽管FP8格式具有计算效率优势,但由于部分算子对低精度计算较为敏感,仍需保持更高计算精度)2025 科智咨询.All rights reserved.DeepSeek主要技术创新点6软硬协同工程优化2/2计算计算-通信重叠通信重叠(DualPipeDualPipe调度策略调度策略)DeepSeek-V3 设
6、计了 DualPipe 算法,用于高效的流水线并行计算。该算法通过重叠计算和通信,减少了流水线气泡,并在跨节点的专家并行训练中实现了近乎完全的计算-通信重叠,显著提升了训练效率。通过通过PTXPTX手动优化跨芯片通信手动优化跨芯片通信 英伟达 H800 芯片互联带宽相比 H100 被阉割,为弥补这一缺陷,DeepSeek 借助 PTX 手动优化跨芯片通信,保障数据传输效率。PTX 是CUDA编译的中间代码,处于高级编程语言(如 CUDA C/C+)和底层机器码(SASS)之间,起到在 CUDA 和最终机器码之间的桥梁作用。借助 PTX,开发者能够直接对 GPU 的寄存器分配、线程调度等硬件级操