1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit刘刘广广 智智源源人人工工智智能能研研究究院院数数据据研研究究组组负负责责人人,O Op pe en nS Se ee ek k/F Fl la ag gA AI I负负责责人人智源人工智能研究院数据研究组的负责人,负责OpenSeek/FlagAI等开源项目,主导开发了悟道天鹰(Aquila)系列语言大模型,以及Infinity Instru
2、ct千万指令数据集系列等重要项目,目前正专注于基于大模型的数据合成技术的研究与应用,致力于推动该领域的技术进步和创新。演演讲讲主主题题:O Op pe en nS Se ee ek k:开开源源集集合合创创新新的的新新模模式式以以及及挑挑战战ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会:开开源源集集合合创创新新的的新新模模式式以以及及挑挑战战刘广智源研究院数据研究组https:/ Fl la ag gO Op pe en n:打打造造大大模模型型时时代代的的 L Li in nu ux xF Fl la ag gO Op pe en n 2 2.0 0 悟
3、道天鹰Aquila Tele-FLMEVA/EVA-CLIPSegGPT大模型数据处理工具集百模评测榜单首个大模型K12学科测验大模型评测开放平台FlagEvalFlagDataBGEFlagScale+FlagCXFlagTreeFlagRelease大模型算法框架集成多种模型算法集成多样化的优化技术FlagAIEmu3全球最大、支持芯片种类最多的Triton通用算子库FlagGems+FlagAttention成功支持GPGPU、DSA等不同的AI芯片指令架构填补了国际上基于Triton语言、面向多种芯片后端的统一编译器空白推动异构算力合池训练支撑多种AI加速芯片架构的大模型自动发版平台M
4、L-SummitML-Summit背背景景DeepSeek成为2025年AI领域标志性现象目目标标OpenSeek用开源驱动下一代AI模型构建进进展展200+贡献者三个工作组7TB t o k e n数据4次双周会开源集合创新的新模式以及挑战从“权重开源”向“全要素开源”的演进ML-SummitML-SummitAquila和Aquila2:首个具备中英双语知识、支持商用许可协议(7B/34B/70B,8x16B)AltCLIP:换文本塔来扩展CLIP模型语言能力,低资源高效AltDiffusion:换文本塔来扩展Diffusion模型语言能力,支持18种语言2023年年模模型型工工作作在模型
5、训练过程中发现数数据据是模型性能的基基石石ML-SummitML-SummitDeepSeek R1 开开源源影影响响力力全全景景图图 突突破破性性性性能能 MATH-500:97.3%(领先GPT-4o)AIME 2024:79.8%(对标OpenAI-o1)Codeforces Elo 2029(96.3%分位)MMLU:90.8%(SOTA)开开源源策策略略 MIT许可证完全开源 GitHub星标70k+提供1.5B-660B全量程模型 推理成本仅OpenAI的1/10 技技术术创创新新 纯RL训练免SFT 多阶段训练管道 首创自验证推理机制 API全平台开放 生生态态影影响响 Hugg
6、ing Face Open-R1项目 24G显存跑满血版671B模型 Azure/GitHub官方集成 登顶App Store免费榜综合来看,DeepSeek R1 的开源影响力源于其卓越性能、创新训练方法、透明技术报告、宽松许可和社区生态支持。其不仅在技术上推动了 LLM 推理能力的发展,还在经济和地缘政治层面引发讨论,成为 2025 年开源 AI 领域的标志性事件。ML-SummitML-Summit模型效果与数据量呈现非线性增长,但存在“高效者”DeepSeek大大模模型型性性能能演演化化趋趋势势ML-SummitML-Summit2024年年数数据据工工作作数据合成标签体系数据筛选数据