李明宇 - QECon2025深圳站工作坊 - 大模型企业应用.pdf-在线下载-三个皮匠报告

1、DeepSeek大模型及在企业的应用实践李明宇主要内容大模型概念及其发展历程大模型领域的新发展和未来展望DeepSeek 核心技术解析知识库/向量检索增强生成（RAG）及案例智能体（AI Agent）及案例作者：李明宇大模型概念及其发展历程什么是大模型？以及 AIGC、GPT、DeepSeek 等概念大模型，或“大型语言模型”LLM（Large Language Model）AIGC，AI-generated Content“人工智能生成内容”，或“生成式人工智能”什么是大模型？以及 AIGC、GPT、DeepSeek 等概念Deep Learning，深度学习 DNN，深度神经网络大型语言模

2、型，简称“大模型”，LLM（Large Language Model）AIGC，AI-generated Content“人工智能生成内容”，或“生成式人工智能”作者：李明宇类GPT模型的原理Ref:https:/ is great!Chat,G,PT,is,great,!实际上输入输出的不是字也不是单词，是token不同语言不同模型token划分效率不同：“深度求索就是好！”6(deepseek tokenizer)9(gpt-3 tokenizer)作者：李明宇大模型发展时间线作者：李明宇大模型发展时间线作者：李明宇模型规模的发展与Scaling Law模型发布时间参数量预训练数据量GPT

3、2018年6月1.17亿约5GBGPT-22019年2月15亿40GBGPT-32020年5月1750亿45TBLlama 3.12024年7月4050亿15 T tokensDeepSeek V32024年12月6710亿14.8 T tokens作者：李明宇DEEPSEEK 核心技术解析DeepSeek V3 的“考试成绩”Ref:https:/ V3 技术创新Ref:https:/ V3 对标gpt-4o的基座模型MLA（多头潜态注意力）通过低秩压缩 keys、values 和 queries，有效减少 KV 缓存和激活内存，提高推理效率。DeepSeekMoE 与辅助损失免疫负载均衡利

4、用动态调整的路由偏置实现专家负载均衡，无需额外辅助损失，从而保持模型性能。多 Token 预测（MTP）训练目标引入多 Token 预测，不仅提升整体性能，还支持 speculative decoding 加速推理。FP8 混合精度训练框架在大规模模型上验证 FP8 训练，通过细粒度量化降低 GPU 内存占用并加速训练。高效基础设施与通信优化采用 DualPipe 流水线实现计算与通信重叠，并优化跨节点 All-to-All 通信，极大提高训练效率。作者：李明宇DeepSeek R1 的“考试成绩”Ref:https:/ R1的技术创新Ref:https:/ R1 对标o1的思维链推理模型纯

5、RL 激励推理直接在基础模型上应用大规模强化学习（RL），无需预先监督微调，使模型自然生成长链式推理，并通过 GRPO 算法有效提升推理表现。冷启动数据引导利用少量高质量冷启动数据对基础模型进行预调优，改善纯 RL 训练中存在的可读性和语言混杂问题，生成清晰、易读的推理链。多阶段训练管道结合两阶段 RL 和监督微调，既激发模型自我进化的推理能力，又确保输出风格统一，满足多场景需求。推理能力知识蒸馏将大模型中提炼的高级推理模式蒸馏到更小的密集模型，实现高效部署与性能优化。作者：李明宇Instruct微调：GPT-3与GPT-3.5的区别从 GPT(GPT-3)到 ChatGPT(GPT-3.5)

6、看RLHF作者：李明宇DeepSeek R1-zero 的 Pure RLRef:https:/ r1-zero r1训练方法从原理上与 o1 的不同lets verify step by stepScaling Law“下半场”训练计算量推理时长2025年图灵奖颁给了强化学习强化学习领域的两位先驱：安德鲁巴托（Andrew Barto）理查德萨顿（Richard Sutton）作者：李明宇DeepSeek R1 的训练作者：李明宇思维链蒸馏1.目标目标将大模型（DeepSeek-R1）的推理能力迁移至更高效的小型模型更高效的小型模型。2.方法方法直接蒸馏直接蒸馏：使用80万条高质量样本对开源