当前位置:首页 > 报告详情

李明宇 - QECon2025深圳站工作坊 - 大模型企业应用.pdf

上传人: 可*** 编号:710773 2025-05-28 83页 10.16MB

1、DeepSeek大模型及在企业的应用实践李明宇主要内容大模型概念及其发展历程大模型领域的新发展和未来展望DeepSeek 核心技术解析知识库/向量检索增强生成(RAG)及案例智能体(AI Agent)及案例作者:李明宇大模型概念及其发展历程什么是大模型?以及 AIGC、GPT、DeepSeek 等概念大模型,或“大型语言模型”LLM(Large Language Model)AIGC,AI-generated Content“人工智能生成内容”,或“生成式人工智能”什么是大模型?以及 AIGC、GPT、DeepSeek 等概念Deep Learning,深度学习 DNN,深度神经网络大型语言模

2、型,简称“大模型”,LLM(Large Language Model)AIGC,AI-generated Content“人工智能生成内容”,或“生成式人工智能”作者:李明宇类GPT模型的原理Ref:https:/ is great!Chat,G,PT,is,great,!实际上输入输出的不是字也不是单词,是token不同语言不同模型token划分效率不同:“深度求索就是好!”6(deepseek tokenizer)9(gpt-3 tokenizer)作者:李明宇大模型发展时间线作者:李明宇大模型发展时间线作者:李明宇模型规模的发展与Scaling Law模型发布时间参数量预训练数据量GPT

3、2018年6月1.17亿约5GBGPT-22019年2月15亿40GBGPT-32020年5月1750亿45TBLlama 3.12024年7月4050亿15 T tokensDeepSeek V32024年12月6710亿14.8 T tokens作者:李明宇DEEPSEEK 核心技术解析DeepSeek V3 的“考试成绩”Ref:https:/ V3 技术创新Ref:https:/ V3 对标gpt-4o的基座模型MLA(多头潜态注意力)通过低秩压缩 keys、values 和 queries,有效减少 KV 缓存和激活内存,提高推理效率。DeepSeekMoE 与辅助损失免疫负载均衡利

4、用动态调整的路由偏置实现专家负载均衡,无需额外辅助损失,从而保持模型性能。多 Token 预测(MTP)训练目标引入多 Token 预测,不仅提升整体性能,还支持 speculative decoding 加速推理。FP8 混合精度训练框架在大规模模型上验证 FP8 训练,通过细粒度量化降低 GPU 内存占用并加速训练。高效基础设施与通信优化采用 DualPipe 流水线实现计算与通信重叠,并优化跨节点 All-to-All 通信,极大提高训练效率。作者:李明宇DeepSeek R1 的“考试成绩”Ref:https:/ R1的技术创新Ref:https:/ R1 对标o1的思维链推理模型纯

5、RL 激励推理直接在基础模型上应用大规模强化学习(RL),无需预先监督微调,使模型自然生成长链式推理,并通过 GRPO 算法有效提升推理表现。冷启动数据引导利用少量高质量冷启动数据对基础模型进行预调优,改善纯 RL 训练中存在的可读性和语言混杂问题,生成清晰、易读的推理链。多阶段训练管道结合两阶段 RL 和监督微调,既激发模型自我进化的推理能力,又确保输出风格统一,满足多场景需求。推理能力知识蒸馏将大模型中提炼的高级推理模式蒸馏到更小的密集模型,实现高效部署与性能优化。作者:李明宇Instruct微调:GPT-3与GPT-3.5的区别从 GPT(GPT-3)到 ChatGPT(GPT-3.5)

6、看RLHF作者:李明宇DeepSeek R1-zero 的 Pure RLRef:https:/ r1-zero r1训练方法从原理上与 o1 的不同lets verify step by stepScaling Law“下半场”训练计算量推理时长2025年图灵奖颁给了强化学习强化学习领域的两位先驱:安德鲁巴托(Andrew Barto)理查德萨顿(Richard Sutton)作者:李明宇DeepSeek R1 的训练作者:李明宇思维链蒸馏1.目标目标将大模型(DeepSeek-R1)的推理能力迁移至更高效的小型模型更高效的小型模型。2.方法方法直接蒸馏直接蒸馏:使用80万条高质量样本对开源

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要内容涉及以下几个方面: 1. 大模型概念及其发展历程:大模型(LLM)是一种大型语言模型,如GPT、DeepSeek等,其参数量和预训练数据量不断增长,如DeepSeek V3达到了6710亿参数。 2. DeepSeek核心技术解析:包括MLA(多头潜态注意力)、MoE(专家负载均衡)和MTP(多Token预测)等,以及FP8混合精度训练框架。 3. 智能体(AI Agent)及案例:介绍了基于大模型的智能体,如软件研发智能助手,能处理Excel、代码审查等任务。 4. 企业级RAG实现方案:通过向量数据库、Query构造等方法,实现知识库/向量检索增强生成。 5. 大模型在企业的应用实践:如淘天集团、云智能集团等在不同业务板块的应用。 6. 行业趋势与未来展望:Qwen系列大模型的开源,以及企业业务智能化、研发提效等挑战和应对。 关键点分条列出: - 大模型参数量巨大,如DeepSeek V3达6710亿。 - DeepSeek核心技术包括MLA、MoE等,以及FP8训练框架。 - 智能体能处理复杂任务,如软件研发辅助。 - 企业级RAG实现方案涉及向量数据库和Query构造。 - 大模型在淘天集团、云智能集团等企业的应用实例。 - Qwen系列大模型开源,企业智能化面临挑战,需结合研发提效等手段应对。
"DeepSeek大模型有哪些核心技术? 如何用DeepSeek解决实际问题? DeepSeek智能体在业务中的应用案例有哪些?"
客服
商务合作
小程序
服务号
折叠