1、DeepSeek 是什么 DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日,由知名私募巨头幻方量化孕育而生。DeepSeek致力于开发和应用先进的大语言模型技术深度小助手深度小助手聪明且低成聪明且低成本本聪明强聪明强大能大能干干中国中国本土本土AIAI深度思考联网搜索DeepSeek:大语言模型的特点有哪些?内容内容 token token 化化大模型看到的世界与人看到的不太一样训练前需要将文本进行处理,比如切割称为Token的基本单元;比如问ai 一个英文单词 illegal 中有几个字母l,有些指令模型回答为2个;但deep
2、seek r1 推理模型是可以回答正确!模型模型训练训练存在存在endtimeendtime大模型训练语料存在一个截止时间deepseek R1虽然是25年1月发布,但它的知识库截止日期是2023年12月,这就意味着ds可以提供在此日期发布之前的公开信息和常识;需要经过大量清洗、监督微调、反馈强化学习。但对于之后的新闻、事件变化、新事物则无法直接获取或验证。解决办法是开启联网模式或提示词中 补充说明无自我认识无自我认识无自无自我意我意识识网上有个段子是“有人问deepseek你是谁,然后回答是gpt”目前AI 大模型不知道自己是谁,也不知道自己是采用什么模型。除非是厂商在后期再微调、或再训练,
3、如果大家问到类似的问题,可能目前的AI 大模型会回答错误。解决办法是少问 AI是谁、采用什么模型上下文长度限上下文长度限定定记忆力有记忆力有限限AI 大模型目前的记忆力大概是64k 128k目前AI 大模型均有上下文长度限定;deepseek r1 提供64k token上下文长度,对应中文的话大约3万4万字。目前还不能一次性投喂太长的文档给它,比如:一本完成西游记、或者非常长的文档让它翻译,AI 它是没有办法完整读完 解决办法是分成多次投喂回答输出回答输出长度有长度有限限AI 大模型目前的回答4k 8k,20004000字目前AI 大模型无法一次性完成万字长文,也无法一次性输出5千字,均是模
4、型输出长度限制所致;如果是输出长文,可以尝试先让AI 大模型先生成一个目录,然后再根据目录输出对应模块;如果是长文翻译类,则多次输入,或者拆解后多次调用API 解决办法是将任务分解成多次2019年2020年投入投入1010亿亿手握万卡手握万卡2022年3月GPT 3.5发布布局集卡补充1:ChatGPT需要上万张 NVIDIA A100显卡,国内主要玩家:百度、字节、腾讯、阿里、商汤、幻方补充2:nvidia官网 https:/ 发布GPT 4o发布V3 发布2024年底2024年5月Llama-3.1发布2024年7月2025年1月31号R1 登录nvidia 官网DeepSeek 发展由来
5、 来自杭州深度求索公司,系一家成立于2023年。使用数据蒸馏技术,得到更为精炼、有用的数据。由知名私募巨头幻方量化全资孕育而生,专注于开发先进的大语言模型(LLM)和相关技术。DeepSeek 为什么火:一个足够优秀的模型变得人人免费拥有一、技术突破:为什么一、技术突破:为什么DeepSeekDeepSeek的模型值得关注?的模型值得关注?二、开源生态:二、开源生态:DeepSeekDeepSeek如何改变开发者社区?如何改变开发者社区?三、行业落地:三、行业落地:DeepSeekDeepSeek推动的技术范式迁移推动的技术范式迁移四、行业竞争格局:四、行业竞争格局:DeepSeekDeepS
6、eek的的“鲶鱼效应鲶鱼效应 ”1.模型架构与训练效率优化架构改进:MLA多层注意力架构、FP8混合精度训练框架、DualPipe 跨节点通信训练策略:采用混合精度训练(BF16+FP8)和梯度累积策略2.数据质量与领域适配数据筛选:多模态数据清洗领域微调:“领域渐进式微调”(Progressive Domain Fine-tuning)策略1.开放模型与工具链全量开源:DeepSeek开源了完整训练代码、数据清洗Pipeline和领域微调工具包(如DeepSeek-Tuner),极大降低复现和二次开发门槛轻量化部署:提供模型压缩工具(如4-bit量化适配TensorRT-LLM)2.社区驱动