报告预览

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf

编号：155395

PDF 53页 13.22MB 下载积分：VIP专享

下载报告请您先登录！

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf

1、DataFunSummitDataFunSummit#20232023大模型研发中的数据工程、自大模型研发中的数据工程、自动化评估及与知识图谱的结合动化评估及与知识图谱的结合刘焕勇-360人工智能研究院-算法专家（老刘说NLP公众号作者）大模型研发中的数据大模型研发中的数据工程工程大模型研发中的自动化大模型研发中的自动化评估评估大模型与知识图谱的大模型与知识图谱的结合结合总结总结目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202320230101大模型研发中的数据大模型研发中的数据工程工程什么是大模型的数据工程-以数据为中心的AI 以数据为中心的

2、AI:模型不变，通过改进数据集质量提升模型效果大模型的数据工程需要解决的几个关键问题:需要什么数据？数据从哪儿来？数据怎么处理？数据怎么评估？数据怎么管理？回顾:现有大模型基本情况回顾:现有大模型应用场景起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens，仅占到训练数据量的3%。数据上的问题数据上的问题:ChatGPTChatGPT 的知识有限的知识有限 (2021(2021年之前年之前)，真实性

3、无法保障。真实性无法保障。参考:lifearchitech.ai起底:英文主流大模型预训练数据的构成-多语种能力起底:英文主流大模型预训练数据的构成多模态大模型数据集多模态大模型数据集大语言模型数据集大语言模型数据集起底:英文主流大模型预训练数据的构成起底:英文主流大模型预训练数据的构成GPT-3GPT-3The Pile v1The Pile v1WebTextWebTextCommon Crawl(C4)Common Crawl(C4)起底:英文主流大模型常用预训数据-维基百科、书籍维基百科维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书，由超三十万名志愿者组成的社区编写和

4、维护。截至2023年3月，维基百科拥有332种语言版本，总计60,814,920条目。其中，英文版维基百科中有超过664万篇文章，拥有超4,533万个用户。书籍书籍:主要用于训练模型的故事讲述能力和反应能力，包括小说和非小说两大类。数据集包括Project Gutenberg和Smash words(Toronto BookCorpus/BookCorpus)等。Project Gutenberg是一个拥有7万多本免费电子书的图书馆，包括世界上最伟大的文学作品，尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础，这些书籍来自于世界上最大的独立电子书分销商之一的Sm

5、ashwords。起底:英文主流大模型常用预训数据-论文期刊期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案，包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。起底:英文主流大模型常用预训数据-WebText、Common crawl RedditReddit链接代表流行内容的风向标链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站，注册用户可以将文字或链

6、接在网站上发布，使它成为了一个电子布告栏系统。WebText是一个大型数据集，它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。CommoncrawlCommoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织，致力于为互联网研究人员、公司和个人免费提供互联网副本，用于研究和分析，它的数据包含原始网页、元数据和文本提取，文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。WebTextWebText前前303

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。