当前位置:首页 > 报告详情

王炳宁-Transformer效率优化.pdf

上传人: 哆哆 编号:630910 2025-04-19 48页 11.94MB

1、王炳宁 百川智能预训练负责人博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKM best paper runner up。博士论文机器阅读理解关键技术研究获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会执行委员。演讲主题:Transformer效率优化Tranfo

2、rmer效率优化百川智能王炳宁2024-11-14语言模型的发展历程n-gram language model N=2:bigram N=3:trigramP(我是中国人)=P(我)*P(是|我)*P(中|是)*P(国|中)*P(人|国)语言模型会将句子的概率拆解成其组成部分的概率语言模型的发展历程n-gram language model传统统计学习的方法大多都是基于极大似然估计(maximum likelihood estimation,MLE)来估计上面的值 其中C(xyz)便是统计语料中xyz出现的次数。极大似然:所见即所得,最常见的就是最可能的,用概率表示语言模型语言模型的发展历程n

3、eural language modelBengio,Yoshua,Rjean Ducharme,and Pascal Vincent.A neural probabilistic language model.Advances in neural information processing systems 13(2000).taining set:14million tokensvocab size:17964n-gram=6model parameters:30,000(w/o word embedding)11,876,848(11m,w/word embedding)通过人工神经网络

4、来进行概率建模。通过梯度反向传播来优化整个模型。语言模型的发展历程neural language modelMikolov,Tomas,et al.Recurrent neural network based language model.Interspeech.Vol.2.No.3.2010.将feed-forward网络替换为和语言表示更为接近的循环神经网络(RNN)语言模型的发展历程-GPT-1neural language modelRadford,Alec,et al.Improving language understanding by generative pre-trainin

5、g.(2018).语言模型的发展历程-GPT2neural language modelRadford A,Wu J,Child R,et al.Language models are unsupervised multitask learnersJ.OpenAI blog,2019,1(8):9.语言模型的发展历程-GPT3Brown,Tom,et al.Language models are few-shot learners.Advances in neural information processing systems 33(2020):1877-1901.语言模型的发展之:scal

6、ingGTC-2024-keynotes当前语言模型发展的最重要的特征:越来越大。不管是语言模型训练数据的增多,还是本身参数规模的扩大,scaling当前语言模型取得突破的最关键因素语言图像视频语音医疗大模型语言图像视频语音医疗模型语言图像视频语音医疗语言模型的发展之:scalingArtificial Intelligence Index Report 2024 OpenAI的GPT-4和Google的Gemini Ultra的训练成本估计分别为7 78 80 00 0万万美美元元和1 1.9 91 1亿亿美美元元。大语言模型的训练成本与计算需求之间存存在在线线性性相相关关性性,具有更高计算

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
王炳宁,百川智能预训练负责人,博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验。主导并发布了如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKM best paper runner up。博士论文《机器阅读理解关键技术研究》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会执行委员。 主要内容概括:王炳宁负责的百川智能在问答系统和大语言模型领域取得了一系列成果,包括发布多个大规模中文问答数据集和Baichuan系列预训练模型,并在国际顶级会议上发表多篇论文。此外,他还探讨了Transformer效率优化的问题,提出了如GQA/MQA、MLA等优化方案,以及在Prefilling和decoding两个阶段的优化策略。
"Transformer效率优化有哪些新方法?" "如何平衡语言模型规模与计算效率?" "GQA/MQA技术在语言模型中应用前景如何?"
客服
商务合作
小程序
服务号
折叠