当前位置:首页 > 报告详情

4、OpenSeek-Workshop.pdf

上传人: Di****s 编号:920165 2025-09-13 47页 10.69MB

1、https:/ LinuxLinuxFlagOpenFlagOpen 2.0 2.0 悟道天鹰Aquila Tele-FLMEVA/EVA-CLIPSegGPT大模型数据处理工具集百模评测榜单首个大模型K12学科测验大模型评测开放平台FlagEvalFlagDataBGEFlagScale+FlagCXFlagTreeFlagRelease大模型算法框架集成多种模型算法集成多样化的优化技术FlagAIEmu3全球最大、支持芯片种类最多的Triton通用算子库FlagGems+FlagAttention成功支持GPGPU、DSA等不同的AI芯片指令架构填补了国际上基于Triton语言、面向多种芯

2、片后端的统一编译器空白推动异构算力合池训练支撑多种AI加速芯片架构的大模型自动发版平台背景背景DeepSeek成为2025年AI领域标志性现象目标目标OpenSeek用开源驱动下一代AI模型构建进展进展200+贡献者三个工作组7TB t o k e n数据4次双周会开源集合创新的新模式以及挑战从“权重开源”向“全要素开源”的演进DeepSeek R1 开源影响力全景图开源影响力全景图 突破性性能突破性性能 MATH-500:97.3%(领先GPT-4o)AIME 2024:79.8%(对标OpenAI-o1)Codeforces Elo 2029(96.3%分位)MMLU:90.8%(SOTA

3、)开源策略开源策略 MIT许可证完全开源 GitHub星标70k+提供1.5B-660B全量程模型 推理成本仅OpenAI的1/10 技术创新技术创新 纯RL训练免SFT 多阶段训练管道 首创自验证推理机制 API全平台开放 生态影响生态影响 Hugging Face Open-R1项目 24G显存跑满血版671B模型 Azure/GitHub官方集成 登顶App Store免费榜综合来看,DeepSeek R1 的开源影响力源于其卓越性能、创新训练方法、透明技术报告、宽松许可和社区生态支持。其不仅在技术上推动了 LLM 推理能力的发展,还在经济和地缘政治层面引发讨论,成为 2025 年开源

4、AI 领域的标志性事件。模型效果与数据量呈现非线性增长,但存在“高效者”DeepSeek大模型性能演化趋势大模型性能演化趋势Aquila和Aquila2:首个具备中英双语知识、支持商用许可协议(7B/34B/70B,8x16B)AltCLIP:换文本塔来扩展CLIP模型语言能力,低资源高效AltDiffusion:换文本塔来扩展Diffusion模型语言能力,支持18种语言2023年模型工作年模型工作在模型训练过程中发现数据数据是模型性能的基石基石2024年数据工作年数据工作数据合成标签体系数据筛选数据合成标签体系数据筛选来源可信教育水平质量标注Aquila-VL-2BInfinity-Ins

5、tructAquilaMoEEmu3从“模型创新”转向“数据数据+开源开源双轮驱动”4OpenSeek时间规划时间规划从“数据+开源”到“技术-社区集合开源创新集合开源创新”新模式,构建可持续AI生态 三个工作组三个工作组系统系统多芯片支持DeepSeekV3的高效训练数据数据10TB 级别双语+合成优质数据(CCI4.0)算法算法合成数据、模型结构、训练算法和系统优化改进DeepSeek V3和和R1的主要技术点的主要技术点MOEMOE 1个共享专家,256个路由专家(每次激活8个),首三层dense结构MLAMLA 高效支持长序列MTPMTP多 token 预测训练目标,提升下游指标FP8

6、FP8训练,极致的针对性优化DualPipeDualPipe分布式训练策略DONEDOLINGTODOModel Architecture SupportoMLA,DeepSeek MoE,MTP etc.Huggingface CompatibilityoConversion ckpt between FlagScale and Huggingface parametersMoE Parallelism OptimizationoPerformance analysis of the current DeepSeekMoE distributed training implementatio

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据标记内容,全文主要围绕DeepSeek R1大模型的开源及其影响展开。以下是关键点: - DeepSeek R1开源,性能卓越,在多个评测中领先,如MATH-500、AIME 2024等。 - 采用MIT许可证完全开源,GitHub星标超过70k。 - 模型推理成本仅为OpenAI的1/10。 - 技术创新包括纯RL训练、多阶段训练管道、自验证推理机制等。 - 生态影响显著,被Hugging Face Open-R1项目集成,登顶App Store免费榜。 - 数据规模达10TB级别,包含双语及合成优质数据。 - 模型效果与数据量非线性增长,存在“高效者”现象。 - 数据处理流程包括过滤、去重、分词等,并利用大模型提升数据质量。 - CCI4.0-M2数据集包含430百万行数据,涵盖多个领域。 - OpenSeek项目旨在开源共建,支持全球开发者参与。
开源AI新标杆?" "大模型时代,FlagOpen如何引领?" "数据驱动AI,DeepSeek V3有何突破?"
客服
商务合作
小程序
服务号
折叠