李直旭-大模型与数据治理-脱敏.pdf-三个皮匠报告

1、大模型驱动的数据清洗与数据合规技术展望分享人：李直旭（研究员、博导）复旦大学计算机科学技术学院上海市数据科学重点实验室知识工场实验室-数据工程与多模态智能组2024.4.1901 以数据为中心的人工智能02 大模型预训练中的数据工程03 大模型驱动的数据治理技术04 总结目录PART 1以数据为中心的人工智能什么是以数据为中心的AI？以数据为中心的人工智能以模型为中心的人工智能关心如何迭代模型来提高效能关心如何系统性地迭代数据输入和数据标签来提高效能特征工程、机器学习、深度学习、表示学习数据采集、数据清洗、数据标注、数据飞轮“以数据为中心的AI是对用于构建AI系统的数据进行系统化工程的学科

2、。”吴恩达数据是 AI 的“原油”：AI系统成败关键，80%取决于数据是否优质AI 系统的核心是训练的框架加上数据。在实际的工程应用中我们发现，AI 系统落地效果的好坏只有 20%取决于算法，80%取决于数据的质量。AI系统=数据+模型/算法前期训练数据准备+后期数据飞轮迭代模型训练覆盖广：只有获取的数据量足够多且覆盖范围足够广泛，AI 才能更好地进行学习和推理多维度：数据标签的维度越多，越能对事物进行更加精细地刻画时效性：不同的年份，不同的时间段采集的数据具有不同的价值高精度：数据的精度不是越高越好，要根据成本进行取舍合规性：只有当合规性存在时，数据其余的价值才会体现优质数据浅谈以数据为中心

3、的人工智能张晴晴训练数据开发：为了收集和产生丰富、高质量的数据，以支持机器学习模型的训练。推理数据开发：为了创建新的评估集，为模型提供更精细的见解，或者通过工程数据输入触发模型的特定能力。数据持续维护：为了确保数据在动态环境中的质量和可靠性。因为现实世界中的数据是持续产生的需要持续维护。以数据为中心的人工智能框架由三个目标组成：以数据为中心的AI系统框架中的数据工程资料来源:Daochen Zha et al.Data-centric Artificial Intelligence:A Survey 2023，华泰研究PART 2大模型预训练中的数据工程GPT“智慧涌现”的本质是对预训练数据

4、的充分学习与模仿微软分析文章认为：GPT4已经初具通用人工智能的部分能力“Given the breadth and depth of GPT-4s capabilities,we believe that it could reasonably be viewed as an early(yet still incomplete)version of an artificial general intelligence(AGI)system”基础：海量、高质量文本的无监督预训练大量认知Prompt任务有监督训练创新性的引入代码数据参与训练人工反馈下的强化学习：注入了人类偏好45TB原始海量文

5、本语料570GB清洗后语料(93%是英文)175GB模型（在GPU显存）40个众包团队标注人类反馈数据数十万高质量Prompt数据96%是英文增强推理激活知识数万个任务Prompt，涉及生成、问答、头脑风暴、闲聊等830GB代码数据数据来源：InstructGPT官方论文上亿活跃用户持续提供数据嵌套使用ChatGPTChatGPT通过海量文本和代码的预训练与数万统一范式生成任务的有监督训练，“逼”着大模型各节点所代表的意义在语义层面和人类语义概念空间越来越一致和对齐，实现了“类人”的语言理解、知识记忆和逻辑推理，并通过人工反馈强化学习保障答案符合预期！模型架构保持相似，参数量和数据量快速增长G

6、PT-1GPT-2GPT-3InstructGPTChatGPT1.17 亿参数15 亿参数1750 亿参数1200w 美金2018201920202022GPT-3.5GPT-42023.031750 亿参数万亿参数GPT-5GPT-4VSoon更高质量、更丰富的训练数据是GPT模型成功的驱动力除模型权重变化外，模型架构保持相似。多样性的数据来源和合适的数据配比非常重要语言大模型数据集表多模态大模型数据集表Sora训练数据=不同比例的视频图像+帧级的画面文本描述+视频内容总结。Sora的强大源自于对预训练数据的精心准备数据来源广数据加工深合成数据多数据集广泛而多样，包括不同持续时间、分辨率和

李直旭-大模型与数据治理-脱敏.pdf

相关报告