当前位置:首页 > 报告详情

刘勇-大模型机理分析.pdf

上传人: 哆哆 编号:630915 2025-04-19 50页 8.90MB

1、刘勇 中国人民大学高瓴人工智能学院副教授、博士生导师博士生导师,从事机器学习研究,特别关注大规模机器学习、统计机器学习理论等。共发表高水平期刊和会议论文40余篇,包括IEEE TPAMI、ICML、NeurIPS、ICLR、AAAI、IJCAI等,其中第一作者/唯一通讯作者在中国计算机学会推荐A类上发表学术论文20余篇。曾获2014年亚太知识发现和数据挖掘会议(PAKDD)博士生论坛最佳论文,并指导学生获2021年环太平洋国际人工智能会议(PRICAI)最佳学生论文。作为项目负责人主持了国家自然科学基金面上项目和青年项目、北京市自然科学基金面上项目、中国科学院基础前沿科学研究计划等。曾获202

2、0年中国人民大学“杰出学者”、2019年中国科学院“青年创新促进会”、2016年中国科学院信息工程研究所“引进优秀青年”、2012年“博士研究生学术新人奖”等称号。演讲主题:大模型机理分析大模型机理分析刘勇中国人民大学高瓴人工智能学院研究背景大模型ICL隐式更新机理分析RAG增强是否能提升大模型推理能力?合成数据机理分析在大模型后训练中是否有用?研究背景介绍 大模型技术飞速发展 ChatGPT、ChatGPT 4、Sora、O1 大模型机理分析相对滞后 大模型内部运行机理研究很少 将来有可能发挥越来越重要的作用研究背景介绍 理论分析的难点 大模型是一个系统工程 理论上很难将其当一个总体研究 现

3、在处于盲人摸象的阶段 本报告 大模型ICL隐式更新机理分析 RAG增强是否能提升大模型推理能力?合成数据机理分析在大模型后训练中是否有用?图片来自pngtree背景介绍 什么是In-context learning(ICL)?7背景介绍监督学习范式 1)给定训练数据 ,=1训练模型;+1=其中,=;,2)预测+1=+1;参参数数是是显显示示更更新新的的!8背景介绍In-context learning 1)给定一个大模型;2)输入序列=1,2,+1 +1,其中=,=1,3)预测+1=;没没有有显显示示参参数数更更新新!9怎怎么么做做到到的的!背景介绍 一种直觉是将其视为隐式梯度更新 线性注意力

4、,=其中=,=,10背景介绍 一种直觉是将其视为隐式梯度更新 考虑一个简单的线性模型;=训练数据=,=1,=1=1 ;,更新参数=+=1 =+=1 在新的测试点:;=+=1 =+,其中 =1,=1,11,=背景介绍 想想解解决决的的问问题题:1)用S So of ft tm ma ax x a at tt te en nt ti io on n 替替换换 l li in ne ea ar r a at tt te en nt ti io on n 2)在在给给定定Q、K、V的的情情况况下下,什什么么样样的的损损失失函函数数(l lo os ss s f fu un nc ct ti io on

5、 n)和和什什么么数数据据下下的的梯梯度度下下降降算算法法对对应应于于I IC CL L过过程程12ICL实实际际上上等等价价于于一一种种对对比比学学习习模模式式!基础知识 输入序列=,+1 +1=1,2,=,+1=+1,+1,+1=Self-attention 输出可表示为:=softmax +=softmax +13Softmax Attention线性化14 =Random featuresRuifeng Ren,Yong Liu.Towards Understanding How Transformers Learn In-context Through a Representatio

6、n Learning Lens.In NeurIPS 2024ICL隐式梯度下降 线性模型:;=更新:=预测=+1 15 =16ICL隐式梯度更新lossICL输输出出基基于于梯梯度度下下降降算算法法的的模模型型输输出出输输入入:=,+1 =Ruifeng Ren,Yong Liu.Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens.In NeurIPS 202417ICL隐式梯度更新inputinputICLFine TuringRuifeng Ren,Y

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要概括了以下几个关键点: 1. 刘勇教授是中国人民大学高瓴人工智能学院的副教授和博士生导师,主要从事机器学习研究,特别关注大规模机器学习和统计机器学习理论。 2. 文章探讨了大模型机理分析,包括ICL隐式更新机理分析和RAG增强是否能提升大模型推理能力。ICL实际上等价于一种对比学习模式,而RAG能增强大模型的推理能力,但效果有限。 3. 文章还研究了大模型后训练中合成数据机理分析,发现合成数据能有效提升大模型后处理性能。合成数据与模型泛化之间存在“逆信息瓶颈”,合成数据引入的信息增益能有效控制期望泛化误差。 4. 文章引用了多篇相关文章,包括Ruifeng Ren和Yong Liu合著的《Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens》等。
大模型ICL隐式更新机理是什么? RAG如何提升大模型推理能力? 合成数据在大模型后训练中有什么作用?
客服
商务合作
小程序
服务号
折叠