【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf

编号:134934 PDF 41页 9.69MB 下载积分:VIP专享
下载报告请您先登录!

【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf

1、如如何何基基于于 R RL LH HF F 来来优优化化C Ch ha at tG GP PT T 类类型型的的大大语语言言模模型型李李俊俊毅毅算法工程师2020年加入字节跳动爱丁堡大学NLP硕士目前在字节跳动担任算法工程师李李俊俊毅毅contents背背景景简简介介01流流行行的的开开源源 R RL LH HF F 的的实实现现04R RL LH HF F 介介绍绍03数数据据工工作作:训训练练数数据据收收集集与与清清洗洗02小小结结0 01 1基基础础背背景景介介绍绍chatGPT,是基于GPT架构下以dialogue format的语料通过有监督学习(SFT)和基于RLHF优化得到的一个

2、产品。根据公开资料,我们可以知道整体的训练方式和InstructGPT基本一致。OpenAI的研发进程大致如下:2 20 01 18 8GPT-12 20 02 20 0GPT-32 20 01 19 9GPT-22 20 02 21 1CodeX/WebGPT2 20 02 22 2InstructGPT/chatGPT2 20 02 23 3GPT-4背背景景介介绍绍chatGPT的基础信息介绍背背景景介介绍绍chatGPT系列的区别区区别别是是什什么么?G GP PT TI In ns st tr ru uc ct tG GP PT Tc ch ha at tG GP PT TR RL

3、LH HF F背背景景介介绍绍chatGPT的训练介绍根据已知信息,chatGPT是基于训练好的GPT-3作为基座以dialogue format的语料经过SFT+RLHF得到的,而在上一张PPT上我们可以看到整个研发的大概时间线,受到这些信息的启发,为了得到chatGPT,我们需要做:1.收集大量语料,其中包括多语言普通文本、emoji、github代码语料以及科研文献等2.收集用户通过api提的问题,通过标注得到问答对3.设计RM训练需要的数据,由标注员标注得到训练所需语料1.对语料进行分析处理,去重,过滤等得到训练语料2.解决大语料和大模型训练的效能问题3.通过高超的超参设置得到最终训练

4、好的模型1.基于标注好的问答对,在Pretrain的基础模型上,输入问答对得到后续训练结果2.在SFT阶段,Garbage in/out的影响会很大,可以参见Meta发布的少量高质量数据训练得到的高质量模型1.首先训练得到一个奖励模型(Reward Model)2.为 了 基 于 R e w a r d Model进行RL,需要将RM和LM同时启动,对于一个问答对,LM输出结果,将之输入到RM中计算得到奖励,以优化LM数数据据收收集集P Pr re et tr ra ai in nS SF FT TR RL LH HF F背背景景介介绍绍chatGPT的训练介绍8Andrej Karpathy

5、在微软BUILD2023大会上分享使用的截图0 02 2数数据据介介绍绍数数据据介介绍绍概览三三个个步步骤骤数数据据获获取取过过滤滤(去去重重、质质量量、隐隐私私)分分类类与与人人工工数数据据介介绍绍几个训练步骤对数据的偏好P Pr re et tr ra ai in n:强大的语言模型 重重点点在在于于数数据据获获取取和和过过滤滤S SF FT T(P PF F):让模型理解用户指令,并让模型知道好的回答是什么样子(知道是什么是好的,并不代表就知道不能做坏事了)重重点点在在于于数数据据分分类类与与人人工工构构造造R RL LH HF F:释放人力,并让模型对齐人类期待,不去做不好的回答 重重

6、点点在在于于数数据据分分类类与与人人工工标标注注数数据据信信息息Common Crawl开源可以过滤使用WebText未开源根据需要自行构造Books1&Books2未开源需要自行构造Wiki百科开源可以过滤使用CodeX训练数据未开源需要自行构造数数据据介介绍绍数据获取-业内公开数据以以下下是是我我们们可可以以了了解解到到的的G GP PT T使使用用过过的的数数据据名名称称信信息息Chinese Scientific Literature(CSL)中文科学文献数据集CLUECorpus2020通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料翻译

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【李俊毅】如何基于 RLHF 来优化 ChatGPT 类型的大语言模型.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠