1、优中选优,金融大模型的优化演进王述|奇富科技演讲嘉宾王 述奇富科技资深算法专家奇富科技大模型部资深算法专家,语言模型组负责人,主要负责内部金融大模型的研发工作及相关应用的落地。曾在百度、字节跳动任职,并主导语言模型和知识图谱相关项目的研发,在大语言模型、多模态语义理解和知识图谱等技术领域有深入的研究与丰富的实战经验。目 录CONTENTS1.发展背景:从通用到金融2.研发流程:多阶段知识增强3.优化策略:深入理解问题4.应用实践:奇富 Copilot发展背景:从通用到金融PART 01演进历程:从通用模型到金融模型Lee J,Stevens N,Han S C,et al.A survey o
2、f large language models in finance(finllms).arXiv 2024通用模型能力涌现 金融模型能力深耕金融数智化转型与大模型高度适配研发流程:多阶段知识增强PART 02研发架构:领域通用与场景适配结合金融大模型研发的四种范式专业金融知识注入,多阶段知识增强数据准备:数据质量是高性能AI的地基覆盖多种数据来源,多种清洗策略组合的标准化数据处理流程;语料 badcase 率从 40%下降至 5%左右数据准备:高质量多样化的指令数据不同任务、来源、形式的数据混合在低样本资源场景下的效果提升会更加显著,数据量会直接影响模型效果增量预训练:合适的数据及配比是关键
3、两阶段指令微调:缓解任务冲突不同 SFT 任务的数据混合可能会出现效果冲突的现象,DMT 策略可以有效缓解任务冲突,提升效果任务解决及指令遵循能力仍然需要一定数量的高质量标注数据偏好对齐The Llama 3 Herd of Models.Meta Llama Team,arXiv 2024如果 SFT 的模型效果不佳时,再进行 DPO 等强化学习优化操作,效果不会理想甚至可能是负向优化覆盖全面的大模型评测框架金融大模型训练各阶段的评测目标不同,不同领域/场景的任务多样化,且需要针对社会层面的潜在风险进行评估挖掘大模型真实能力的评测体系选择题一般仅能反应模型在语言理解和知识储备上的能力,无法评
4、估模型的问题解决能力开源任务评测数据集标注质量参差不齐,无法真实有效的评估模型的任务解决水平优化策略:深入理解问题PART 03不同阶段大模型获取的能力不同深入理解问题,定位问题根因预训练缺乏有效的领域知识高重量的知识密集型数据是领域预训练的关键预训练并未有效拟合领域知识多任务评测指标判断模型训练是否有效多领域数据拟合曲线判断数据源、配比是否合理多维度监控保障训练有效性预训练并未有效拟合领域知识The Llama 3 Herd of Models.Meta Llama Team,arXiv 2024MiniCPM:揭示端侧大语言模型的无限潜力.MiniCPM团队,OpenBMB Blog高质量
5、数据退火有效提升榜单效果开源模型仅开源模型权重,并未开源训练框架及训练数据,无法掌握预训练阶段的数据配比不同开源模型的预训练与退火机制不同,需要针对性的调整数据构造/配比及训练方式来保证增量预训练的有效性在预训练阶段未学习到对应的知识1.Loramoe:Revolutionizing mixture of experts for maintaining world knowledge in language model alignment,arXiv 20232.Physics of Language Models:Part 3.1,Knowledge Storage and Extracti
6、on,Meta FAIR Labs,arXiv 2023在训练初期,使用约1000个样本时,模型性能快速提升至较高水平随后增加更多样本,提升效果有限少量样本的微调足以使大模型对齐人类指令大模型完成CBQA评测主要依赖其内在的世界知识,而非微调样本注入必须在预训练阶段进行知识的获取及增强(多样性、置换、改写等),在预训练阶段学不到的知识,微调阶段基本很难学习到在预训练阶段未学习到对应的知识一个知识点必须用不同方式大量重复学习任务叠加冲突导致模型能力下降A comprehensive capability analysis of gpt-3 and gpt-3.5 series models,Ar