1、王昊奋同济大学增强大语言模型关键技术与应用范式1.大语言模型崛起2.增强关键技术3.应用落地范式4.典型案例分享5.未来机遇展望1.大语言模型崛起大语言模型掀起迈向AGI的浪潮ChatGPT是由美国人工智能公司OpenAI在2022年11月推出的生成式对话预训练大语言模型。它以对话的方式进行交互。对话形式使得其能够回答后续问题,承认错误,质疑不正确的前提,并拒绝不适当的请求大语言模型掀起迈向AGI的浪潮NLP任务:文本分类信息抽取文本摘要智能问答阅读理解机器翻译文本生成语法纠正.应用场景:信息分类文本结构化摘要说明对话问答复杂文本理解多种语言翻译内容创作信息纠错.大语言模型掀起迈向AGI的浪潮
2、A Survey of Large Language Models,2023大语言模型掀起迈向AGI的浪潮开源基础模型+微调促进生态繁荣大语言模型作为基础来提供接口基础模型/大模型:指通过在大规模的数据上训练后能适应一系列下游任务的的模型Zero Shot PromptingFew Shot Prompting In Context LearningInstruction来源:Finetuned Language Models Are Zero-Shot Learners来源:Language Models are General-Purpose Interfaces大语言模型的“特征工程”围
3、绕提示展开:提示工程大语言模型的“特征工程”围绕提示展开:提示工程大语言模型的“特征工程”围绕提示展开:提示工程大语言模型的“特征工程”围绕提示展开:提示工程Zero-Shot Chain-of-ThoughtSelf-Consistency大语言模型存在的不足存在“幻觉”,容易一本正经胡说八道提示直接决定回复质量,经常容易“说正确的废话”无法理解与更新个性化知识,如无法针对个性需求提供信息无法处理动态、实时问题,如股票价格、天气变化等知识无法更新,不能提供最新信息不擅长数学计算和逻辑推理等正确答案:555458块实时问题个性化问题需要新知识需要计算大语言模型落地的限制GPT=Giant Pa
4、rrot Talking?(统计学习)增强大语言模型的必要性和可能方向来源:Augmented Language Models:a Survey(Yann Lecun et al.)v针对当前LLM的不足,研究者们提出了一些改进措施,例如使LM利用外部工具,用LM的权重中不包含的重要缺失信息来增强上下文理解,形成更强大的智能体;这些模型统称为增强语言模型(ALMs)。v推理(Reasoning):将复杂任务分解成更简单的子任务,LM可以自己或使用工具更容易地解决。v工具(Tool):收集外部信息,或者对ALM感知的虚拟或物理世界产生影响。v行为(Act):调用一个对虚拟或物理世界有影响的工具并
5、观察其结果,将其纳入ALM的当前上下文。v结合使用:推理和工具可以放在同一个模块里,二者都是通过增强LM的上下文来更好地预测缺失;收集额外信息的工具和对虚拟或物理世界产生影响的工具可以被LM以同样的方式调用。2.增强关键技术增强技术1:高级提示工程增强技术1:高级提示工程增强技术1:高级提示工程单阶段方法Sensitivity of in-context learningComplexity,diversity,explicityComplexity-Based Prompting for Multi-step Reasoning,ICLR 2023在CoT方法上简单直接的改进,现有工作表明i
6、n-context learning对于其中包含的例子的顺序、质量等非常敏感,一个非常小的改变可能会引起模型效果上很大的下降,想要进一步的优化CoT,一个直观的手段是优化其中的例子,现有方法主要是提高例子的复杂度、多样性、明确性等增强技术1:高级提示工程多阶段方法Least-to-Most Prompting Enables Complex Reasoning in Large Language Models 2022人类在推理问题时往往不是一次性的,而是反复思考的多次输入输出,受此启发便产生了相对于单阶段的多阶段类提示方法,该类方法将一个复杂问题拆成多个子问题按多阶段进行推理增强技术1:高级