刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf

上传人：蓝***

编号：1270117

2026-06-20

PDF 58页 6.63MB

《刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf》由会员分享，可在线阅读，更多相关《刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf（58页珍藏版）》请在三个皮匠报告上搜索。

1、刘啸微软亚洲研究院人工智能推理组 Senior Researcher 重新思考大语言模型预训练中的数据问题重新思考大语言模型预训练中的数据问题数据选择、数据混合与高效训练数据选择、数据混合与高效训练研究方向：自然语言处理、大语言模型与推理本科和博士毕业于北京理工大学；博士论文获 2023 年 CIPS 优秀博士学位论文奖在顶级 NLP/ML 会议发表论文 40 余篇；相关工作获 NeurIPS 2024 Best Paper Runner-Up 相关技术已应用于微软 Bing Search 等产品；并担任 ACL、ICML、NeurIPS、EMNLP 的 Area Chair自我介绍自

2、我介绍Xiao LIU 刘啸刘啸Senior Researcher微软亚洲研究院人工智能推理组Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.引言数据选择数据混合高效训练Part 05.Part 05.总结与展望规模扩展已经奏效规模扩展已经奏效但仅靠扩展还不够但仅靠扩展还不够Observed TensionObserved Tension随着语料规模扩大，成本、重复和弱监督往往比真正有用的信号增长得更快大语言模型的近期进展与更大的模型、更多的算力和更多的训练数据密切相关然而，单纯增加原始数据规模的成本越来越高，而且

3、常会带来冗余、噪声和领域失衡一个更实际的问题随之出现：我们能否不仅我们能否不仅通过通过“训练更多训练更多”，而且通过，而且通过“训练得更好训练得更好”来来提升能力？提升能力？瓶颈已不再只有规模，还越来越取决于数据质量和数据效率瓶颈已不再只有规模，还越来越取决于数据质量和数据效率为什么数据值得被当作一级对象来对待为什么数据值得被当作一级对象来对待数据不仅是数据不仅是“燃料燃料”，也是一种隐式课程与归纳偏置，也是一种隐式课程与归纳偏置信号密度信号密度同一语料中的不同部分，学习价值可能截然不同。课程效应课程效应数据组成会影响模型先学到什么，以及最终保留什么。迁移行为迁移行为在总 token 预算相同

4、的情况下，不同的数据设计会带来不同的下游优势。预训练的数据中心视角预训练的数据中心视角选择回答哪些数据点应该被保留或被强调混合回答不同领域应如何在训练过程中组合高效训练回答更好的数据与更好的架构如何相互强化沿着从原始数据到最终模型质量的完整路径展开沿着从原始数据到最终模型质量的完整路径展开原始数据原始数据选择选择混合混合训练训练能力能力核心论点核心论点更好的数据设计，是提升预训练效率和模型能力的一条可扩展路径更好的数据设计，是提升预训练效率和模型能力的一条可扩展路径选择选择并非所有 token 或文档对学习的贡献都相同。混合混合不同领域之间的比例应当被学习，而不应只靠启发式固定。训练训练

5、改进的数据流水线即使在小规模设置下，也能释放更强的模型能力。以数据为中心的视角以数据为中心的视角为什么 LLM 预训练的下一阶段，不仅关乎模型规模和算力扩展，也关乎把数据本身作为一级设计目标。具体方法具体方法用于识别高价值数据、平衡异构领域以及提升训练效率的代表性思路。一条连贯主线一条连贯主线数据选择、数据混合与高效模型如何连接成一条端到端的预训练流水线。本次报告涵盖的工作本次报告涵盖的工作递进主线递进主线数据选得更好、数据混得更好、模型训得更高效数据选得更好、数据混得更好、模型训得更高效数据选择数据选择 Rho-1:Not All Tokens Are What You Need Beyon

6、d Length:Quantifying Long-Range Information for Long-Context LLM Pretraining Data Learning from the Best,Differently:A Diversity-Driven Rethinking on Data Selection数据混合数据混合 Data Mixing Agent:Learning to Re-weight Domains for Continual Pre-training高效训练高效训练 Sigma-MoE-Tiny三个问题三个问题选择并不是单一问题，它同时涉及粒度、信息结构

刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf

相关报告