当前位置:首页 > 报告详情

讲习班-长上下文大模型进展与挑战-苏州大学.pdf

上传人: 山海 编号:627141 2025-04-21 73页 23.15MB

1、长上下文大模型长上下文大模型进展与挑战进展与挑战李俊涛报告内容1.1.什么是长上下文模型?什么是长上下文模型?3.3.长上下文大模型前沿与挑战长上下文大模型前沿与挑战2.2.如何训练长上下文模型如何训练长上下文模型?2.1 建模建模2.2 数据数据2.3 评测评测大模型上下文输入长度Source:Google Blog 2023DecClaude3-200K Mistral-7B-0.2-32KJulyClaude-2-100K Baichuan2-192K NovGPT4 Turbo-128K 2022NovChatGPT-3.5-16KAprChatGLM2-32K MPT-65K Sep

2、Qwen1.5-32K 闭源模型开源模型2024JulyMistral Nemo-128KMarGLM-4-long-1MMayGemini1.5 Pro-10MGemini1.0 Pro-32KMeta-Llama 3.1-128KYi-6B-200K Deepseek-V2-128K p 在众多场景越来越重要(复杂场景、部署便捷性、高效计算)长文档处理(RAG)代码助手工具调用长历史对话多模态输入处理“See”More“Memory”More“Think”More“Speak”More长上下文大模型使用场景什么是长上下文模型?“A long context model,in the rea

3、lm of natural language processing,refers to a type of language model that is capable of processing and understanding extensive sequences of text,far beyondthe typical context window size that standard large language models(LLMs)can handle.”相对模糊相对模糊的概念的概念“10 million tokens at once is already close to

4、 the thermal limit of our Tensor Processing Units we dont know where the limit is yet,and the model might be capable of even more as the hardware continues to improve”Google Blog,Gemini TeamAdvancing transformer architecture in long-context large language models:A comprehensive surveyJ.arXiv preprin

5、t arXiv:2311.12351,2023.报告内容1.1.什么是长上下文模型?什么是长上下文模型?3.3.长上下文大模型前沿与挑战长上下文大模型前沿与挑战2.2.如何训练长上下文模型如何训练长上下文模型?2.1 建模建模2.2 数据数据2.3 评测评测汇报目录p 长上下文能力对齐 监督微调(SFT)强化学习(RL)开源短上下文强模型(Llama2-4K,Llama3-8K)具有长上下文窗口的模型(32K)强长上下文模型p 上下文窗口扩展 相对位置编码(RPE)旋转位置编码(RoPE)位置内插(PI)与外推(PE)建模绝对位置编码(APE):!+0+1#+2$+%+3&+相对位置编码(RP

6、E):!#$#%3 1 1 基于Transformer 的模型依赖位置编码来确定每个token的位置,相对位置编码额外关注相对位置关系上下文窗口扩展 位置编码上下文窗口扩展 相对位置编码ALiBi函数:!,#=$!%&($p线性偏差线性偏差注意力使输入长度外推成为可能注意力使输入长度外推成为可能(ALiBiALiBi)(ICLR 2022)优点优点简单而有效,MPT(2023)模型上下文窗口达到65K缺点缺点单向:无法识别左右相对位置权值随序列长度增加而严重衰减%,=,-/4|min-2 1,-4+log -/4logmax-/4-4,p Bucket相对位置编码首次提出于T5(JMLR,20

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了长上下文模型的进展与挑战。长上下文模型是指能够处理和理解大量文本序列的语言模型。文章首先介绍了长上下文模型的定义和应用场景,如长文档处理、代码助手、长历史对话等。接着,文章探讨了如何训练长上下文模型,包括建模方法、数据资源和评测标准。在建模方面,文章介绍了相对位置编码、旋转位置编码等方法来扩展上下文窗口。在数据资源方面,文章提出了使用生成式预训练数据、合成数据构建和模型生成等策略。在评测标准方面,文章介绍了信息检索、聚合推理、实证生成等任务。最后,文章讨论了长上下文模型面临的前沿挑战,如高效长上下文能力对齐、新模型架构和长上下文能力评估等。
长上下文模型如何训练? 长上下文模型有哪些应用场景? 长上下文模型评测有哪些方法?
客服
商务合作
小程序
服务号
折叠