哈工大计算学部:2025大模型原理、技术与应用:从GPT到DeepSeek(66页).pdf

编号:622290 PDF  PPTX 66页 19.31MB 下载积分:VIP专享
下载报告请您先登录!

哈工大计算学部:2025大模型原理、技术与应用:从GPT到DeepSeek(66页).pdf

1、车万翔哈工大计算学部人工智能学院社会计算与交互机器人研究中心(HIT-SCIR)2025年2月28日大模型原理、技术与应用从GPT 到 DeepSeek从GPT 到 DeepSeek为什么是语言?大模型 又称 大语言模型(Large Language Models)语言 是人类交流思想、表达情感最自然、最深刻、最方便的工具“语言是继真核细胞之后最伟大的进化成就”社会生物学之父爱德华威尔逊“语言本身就是人类有史以来最大的技术发明”詹姆斯格雷克信息简史人类历史上大部分知识是以语言文字形式记载和流传的运算智能能存储会计算感知智能能听会说能看会认认知智能能理解会思考什么是自然语言处理?自然语言 指的是

2、人类语言,特指 文本符号,而非语音信号 自然语言处理(Natural Language Processing,NLP)属于 认知智能 是人类和动物的主要区别之一用计算机来 理解 和 生成 自然语言的各种理论和方法需要更强的 抽象 和 推理 能力“自然语言处理是人工智能皇冠上的明珠”自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈“如果给我10亿美金,我会建造一个NASA级别的自然语言处理研究项目”美国双院院士、世界知名机器学习专家Michael I.Jordan“下一个十年,懂语言者得天下”美国工程院士、微软前全球执行副总裁沈向洋“深度学习的下一个大的进展应该是让神经网络真正理解文档

3、的内容”诺贝尔奖得主、图灵奖得主、深度学习之父Geoffrey Hinton“深度学习的下一个前沿课题是自然语言理解”图灵奖得主、Meta AI负责人Yann LeCun自然语言处理的发展历史自然语言处理技术已经经历了 五次范式变迁小规模专家知识19501990浅层机器学习算法19902010深度学习2010201720232024大模型预训练语言模型20182023GPT 采用 语言模型 预训练任务 语言模型计算一个句子在语言中出现的概率或给定上文,预测下一个词出现的概率Generative Pre-trained Transformer,OpenAI 2018 哈工大位于_ 知识 我在水果

4、店看到了苹果、香蕉、_ 语义 小明打了小红,然后她_ 推理、指代 我一定推荐给朋友看,这部电影真是_ 情感 语言模型学到了什么?预训练阶段GPT 使用建模能力更强的 Transformer 模型 在目标任务上精调整个 预训练 模型 接入的下游任务模型可以非常 简单三大创新开启了自然语言处理 预训练模型 时代精调阶段未标注文本语料库模型训练数据标注模型预训练模型精调Fine-tune预训练Pre-trainGPT-3:大模型早已有之 Language Models are Few-Shot Learners,OpenAI&Microsoft 2020 1750亿参数,模型太大 无法精调 为不同的

5、任务设计相应的“提示语”GPT-3 代码生成示例下面文本的情感是:这本书写得很好的情感是?任务描述问题 无需训练,便可完成“文本”生成 任务 如:问答、文章续写、网页生成、自动编曲等示例(In-context)我喜欢这部电影的情感是褒义GPT-3的不足GPT-3测试样例Question:Which is heavier,a toaster or pencil?(烤箱和铅笔哪个更重?)GPT-3:A pencil is heavier than a toaster.(铅笔比烤箱重。)Question:How many eye does my foot have?(我的脚有几只眼睛?)GPT-3:

6、Your foot has two eyes.(你的脚有两只眼睛。)GPT-3原文指出,在故事结尾选择任务上比哈工大丁效等所提出的具有知识推理能力的模型低4.1%!预训练语言模型并不能真正克服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的瓶颈,故在深层次语义理解上与人类认知水平还相去较远!缺乏知识推理与可解释性解决方案:ChatGPT(OpenAI,2022.11)https:/ 在代码数据上继续预训练ChatGPT 的关键核心技术(1/3):无监督学习大规模预训练语言模型,涌现出推理能力 模型 ChatGPT 的关键核心技术(2/3):有监督学习 将各种任务形式进行统一(指令+输入输出)在

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(哈工大计算学部:2025大模型原理、技术与应用:从GPT到DeepSeek(66页).pdf)为本站 (SIA) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠