1、数据驱动下的大模型微调:策略与挑战杨敏&倪仕文YSSNLP 2024 昆明YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024团队介绍SIAT-NLP另有博士生研究生和硕士生研究生30余人谭明环 博士新加坡管理大学助理研究员倪仕文 博士台湾成功大学助理研究员杨敏 博士中科院深圳先进院数据挖掘实验室主任中科院青促会成员连续三年入选全球前2顶尖科学家 YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Y
2、SSNLP2024YSSNLP2024YSSNLP2024大语言模型指令微调介绍指令微调数据集及其构造高质量指令微调数据筛选各种指令微调方法及解析01020304目录YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024大语言模型指令微调介绍指令微调数据集及其构造高质量指令微调数据筛选各种指令微调方法及解析01020304YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNL
3、P2024YSSNLP2024 大语言模型什么是大模型指令微调?预训练是大模型训练的第一阶段,模型在大量无标签语料库上进行训练,使其能够充分理解语言的基本语法、语义和上下文关系,学习海量基础知识。预训练大量无标签数据YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024什么是大模型指令微调?任务/领域 1任务/领域 2任务/领域 3任务/领域 4任务/领域 5 大语言模型指令微调没见过的任务/领域任务/领域 1任务/领域 2任务/领域 3微调是预训练之后大模型训练的第二
4、阶段,预训练阶段模型学习到海量知识,但是模型还没有学会解决各类具体的任务。通过多任务指令微调,让模型学会使用预训练阶段习得的知识,使之具备正确响应各种输入的能力。YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024指令微调的作用Learning or Self-aligning?Rethinking Instruction Fine-tuning.指令微调的核心作用机制并不是让模型去“学习”额外的知识,而是将模型内部现有的知识进行一种自我的对齐。对于指令微调而言,学习
5、与模型参数知识不一致的世界知识无法带来增益,甚至会造成额外的损害。有效指令微调的本质在于完成行为模式转换的同时,保持指令微调前后模型参数知识的一致性。YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024指令微调的作用Scaling Instruction-Finetuned Language Models.arXiv 2022.不同量级的模型指令微调后性能均有提升未见过任务指令微调不仅可以提高大模型在特定任务上的性能,也可以让大模型的能力泛化到其他任务上。YSSNLP
6、2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024大模型微调和部署需要多少显存?微调阶段:以混合精度训练参数量为nB的模型为例,这里n=13模型权重:优化器状态(AdamW):梯度:中间激活值:13B模型,batch为1,4096上下文长度,中间激活值占用150GBatch size为1就最少需要358G显存才可全参数微调。YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP20