当前位置:首页 > 报告详情

刘啸_重新思考大语言模型预训练中的数据问题——数据选择、数据混合与高效训练.pdf

上传人: 蓝*** 编号:1270117 2026-06-20 58页 6.63MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
1. **核心论点**:提升大语言模型预训练效率需以数据为中心,通过数据选择、混合与高效训练优化模型能力,而非单纯依赖规模扩展。 2. **数据选择**: - **Rho-1**:Token级重要性估计(如PPL评分),提升信号密度,相同预算下few-shot准确率更高。 - **Beyond Length**:量化长程信息(非仅长度),在Needle-in-Haystack任务中召回率优于基线。 - **多样性驱动选择**:联合优化质量与多样性,避免分布坍缩,提升跨任务鲁棒性。 3. **数据混合**: - **Data Mixing Agent**:动态调整领域权重(如General→Math),通过离线强化学习实现自适应混合,优于静态策略。 4. **高效训练**: - **Sigma-MoE-Tiny**:20B总参数/500M激活,在9T+6T Token训练后性能与稠密模型相当,验证数据与架构协同优化价值。
数据如何选? 混合有妙招? 效率怎么提?
客服
商务合作
小程序
服务号
折叠