报告预览

刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf

编号：1270117

PDF 58页 6.63MB 下载积分：VIP专享

下载报告请您先登录！

刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf

1、刘啸微软亚洲研究院人工智能推理组 Senior Researcher 重新思考大语言模型预训练中的数据问题重新思考大语言模型预训练中的数据问题数据选择、数据混合与高效训练数据选择、数据混合与高效训练研究方向：自然语言处理、大语言模型与推理本科和博士毕业于北京理工大学；博士论文获 2023 年 CIPS 优秀博士学位论文奖在顶级 NLP/ML 会议发表论文 40 余篇；相关工作获 NeurIPS 2024 Best Paper Runner-Up 相关技术已应用于微软 Bing Search 等产品；并担任 ACL、ICML、NeurIPS、EMNLP 的 Area Chair自我介绍自

2、我介绍Xiao LIU 刘啸刘啸Senior Researcher微软亚洲研究院人工智能推理组Part 01.Part 01.Part 02.Part 02.Part 03.Part 03.Part 04.Part 04.引言数据选择数据混合高效训练Part 05.Part 05.总结与展望规模扩展已经奏效规模扩展已经奏效但仅靠扩展还不够但仅靠扩展还不够Observed TensionObserved Tension随着语料规模扩大，成本、重复和弱监督往往比真正有用的信号增长得更快大语言模型的近期进展与更大的模型、更多的算力和更多的训练数据密切相关然而，单纯增加原始数据规模的成本越来越高，而且

3、常会带来冗余、噪声和领域失衡一个更实际的问题随之出现：我们能否不仅我们能否不仅通过通过“训练更多训练更多”，而且通过，而且通过“训练得更好训练得更好”来来提升能力？提升能力？瓶颈已不再只有规模，还越来越取决于数据质量和数据效率瓶颈已不再只有规模，还越来越取决于数据质量和数据效率为什么数据值得被当作一级对象来对待为什么数据值得被当作一级对象来对待数据不仅是数据不仅是“燃料燃料”，也是一种隐式课程与归纳偏置，也是一种隐式课程与归纳偏置信号密度信号密度同一语料中的不同部分，学习价值可能截然不同。课程效应课程效应数据组成会影响模型先学到什么，以及最终保留什么。迁移行为迁移行为在总 token 预算相同

4、的情况下，不同的数据设计会带来不同的下游优势。预训练的数据中心视角预训练的数据中心视角选择回答哪些数据点应该被保留或被强调混合回答不同领域应如何在训练过程中组合高效训练回答更好的数据与更好的架构如何相互强化沿着从原始数据到最终模型质量的完整路径展开沿着从原始数据到最终模型质量的完整路径展开原始数据原始数据选择选择混合混合训练训练能力能力核心论点核心论点更好的数据设计，是提升预训练效率和模型能力的一条可扩展路径更好的数据设计，是提升预训练效率和模型能力的一条可扩展路径选择选择并非所有 token 或文档对学习的贡献都相同。混合混合不同领域之间的比例应当被学习，而不应只靠启发式固定。训练训练

5、改进的数据流水线即使在小规模设置下，也能释放更强的模型能力。以数据为中心的视角以数据为中心的视角为什么 LLM 预训练的下一阶段，不仅关乎模型规模和算力扩展，也关乎把数据本身作为一级设计目标。具体方法具体方法用于识别高价值数据、平衡异构领域以及提升训练效率的代表性思路。一条连贯主线一条连贯主线数据选择、数据混合与高效模型如何连接成一条端到端的预训练流水线。本次报告涵盖的工作本次报告涵盖的工作递进主线递进主线数据选得更好、数据混得更好、模型训得更高效数据选得更好、数据混得更好、模型训得更高效数据选择数据选择 Rho-1:Not All Tokens Are What You Need Beyon

6、d Length:Quantifying Long-Range Information for Long-Context LLM Pretraining Data Learning from the Best,Differently:A Diversity-Driven Rethinking on Data Selection数据混合数据混合 Data Mixing Agent:Learning to Re-weight Domains for Continual Pre-training高效训练高效训练 Sigma-MoE-Tiny三个问题三个问题选择并不是单一问题，它同时涉及粒度、信息结构

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf）为本站（蓝色烟花）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。