1、1浙江大学DS系列专题主讲人:朱强主讲人:朱强浙江大学计算机科学与技术学院人工智能省部共建协同创新中心(浙江大学)https:/ 2一、语言模型一、语言模型三、ChatGPTOutline四、DeepSeek五、新一代智能体二、Transformer3Language ModelingLanguage Modeling对于任意的词序列词序列,计算出这个序列是一句话的概率概率我们每天都和语言模型打交道:I saw a catI saw a cat on the chairI saw a cat running after a dogI saw a cat in my dreamI saw a c
2、acar语言模型:终极目标4Sheismymom1000010000100001One-hot EncodingOne-hot Encoding只有一个1,其余均为0One-hot Encoding有什么缺点吗?编码:编码:让计算机理解人类语言语言模型:基本任务50.990.990.050.10.990.050.930.090.020.010.990.980.980.020.940.3鲸鱼海豚鹦鹉企鹅游泳飞翔Word EmbeddingWord Embedding用一个低维低维的词向量表示一个词能使距离相近的向量相近的向量对应的物体有相近的含义相近的含义20维的向量用one-hot和word
3、embedding的方法分别可以表示多少单词?编码编码:让计算机理解人类语言6Word EmbeddingWord Embedding结合句子语境我们可以猜测:tezgino是一种由玉米制作的酒精类饮料 A bottle of tezgino is on the table.Everyone likes tezgino.Tezgino makes you drunk.We make tezgino out of corn.(1)A bottle of _ is on the table.(2)Everyone likes _.(3)_ makes you drunk.(4)We make _
4、out of corn.(1)(2)(3)(4)1 1 1 1 1 1 1 1 1 1 0 0 0 0 1 1 0 1 1 1 1 11 1 1 0 tezginomotor oiltortillaswine两行内容十分相近两个单词含义相近编码编码:让计算机理解人类语言7基于统计的N-gram(1970 after)基于统计的N-gram(1970 after)语言模型:技术演化Before:P(小)P(猫|小)P(抓|小猫)P(老|小猫抓)P(鼠|小猫抓老)3-gram:P(小)P(猫|小)P(抓|小猫)P(老|猫抓)P(鼠|抓老)2-gram:P(小)P(猫|小)P(抓|猫)P(老|抓)P
5、(鼠|老)Transformer(2017 after)Transformer(2017 after)基于神经网络的LSTM/GRU(2000 after)基于神经网络的LSTM/GRU(2000 after)8常见的深度学习模型框架,可用于解决 Seq2Seq 问题可以根据任务选择不同的编码器和解码器(LSTM/GRU/TransformerLSTM/GRU/Transformer)EncoderDecoder我 很 聪 明!I am pretty smart!隐空间RepresentationRepresentationEncoder-Decoder9 9一、语言模型三、ChatGPTOu
6、tline四、DeepSeek五、新一代智能体二、Transformer二、Transformer10Transformer:Transformer:理论架构创新理论架构创新自注意力机制:自注意力机制:支持并行计算/全局上下文的理解能力多头注意力:多头注意力:从多个角度捕捉复杂的语义关系前馈网络前馈网络/位置编码位置编码/层归一化:层归一化:解决了传统模型的诸多局限性大型语言模型简史2017JUN2017JUN1958TransformerTransformer2018JUN2018JUNGPTGPT2018OCT2018OCTBERTBERT2019FEB2019FEBGPT-2GPT-22