1、肖仰华复旦大学知识工场实验室上海市数据科学重点实验室以数据为中新的大模型行业落地发展路径大模型发展趋势2从通用转向细分通用通用AIAI行业行业/专业专业/场景场景AIAI企业企业AIAI实现机器智能的涌现解决行业核心业务痛点覆盖企业运营每个流程大模型正在经历由通到专再到细由通到专再到细的发展道路大模型产品逐渐场景化、专业化,走进企业,走进个人生活?从训练转向推理大模型训练过程LLM信息检索推理LLM文本推理生成 训练训练 依赖海量数据与大规模算力(硬件集群)目标是得到一个可泛化的模型 局限性:成本高、周期长、更新迭代困难 推理推理 已有基座大模型无需从零开始训练 面向下游任务:RAG、Agen
2、t、Retrieve 推理效率(低延迟、低成本)与知识注入(外部工具调用)趋势:从“高效高效训练训练”转向“高效推理高效推理 +精准精准适配适配”从预训练转向后训练从预训练转向后训练 未来大模型将从知性向理性从知性向理性阶段发展FromFrom pre-training(pre-training(知性知性)to post-trainingto post-training(理性)(理性)提升的途径理性:用知识的能力;知识的反复咀嚼,反思、实践;优质指令构造与训练时大模型理性能力提升的关键技术之一 相关方法预训练知识结构化表示;优质指令微调数据精选;使用与人类对齐方式,在外部知识少量干预或无干预情
3、况下,过程中知识反刍促进知识回放与知识吸收从工程转向科学大模型数据科学总体属于探索阶段,大模型数据工程缺乏数据科学的有效指导大模型数据工程与科学的发展现状与趋势自进化专家经验量化科学个人经验、黑盒、不透明、数据利用率低自组织、自优化、自设计、自合成可溯源、可解释、可量化、易控制现状近期远期大模型强于知性,在感性与理性方面离人类仍有距离知性感性理性分类归纳自知之明自我反思知识整合理论创新归纳演绎语言理解情感共鸣氛围识别感性感性:提供直观素材,多模态体验交互能力多模态体验交互能力知性知性:运用范畴整理感性材料,知识的获取能力知识的获取能力理性理性:追求绝对的统一性和完整性,知识的应用能知识的应用能
4、力当前大模型感性与理性能力的缺失需要大模型数据科学需要从专家经当前大模型感性与理性能力的缺失需要大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。验阶段发展到量化科学、直至自进化阶段。时空感知五官整合想象创造美感体验概念理解规则提取批判质疑规划分解模式识别记忆检索康德纯粹理性批判从模型转向数据面向AI的数据产业的高质量发展需要资源、技术、模式、制度并进中文公开数据在质量和数量上落后于英文数据数据开放标准不统一,开发程度有待提高面向AI的高质量行业数据集匮乏高质量数据供给AI 模型训练要求更高的数据精度和更多的模态AI 技术发展使得数据合成技术成为可能数据处理与加工技术需要迭代优化
5、数据加工技术大规模数据汇聚治理分析专业企业数量不足数据授权运营主体仍在培育数据集构建与运营的商业模式发展不够成熟数据主体与商业模式数据采集方面缺乏适用的标准规范面向 AI 模型训练与应用数据规划尚未出台高质量数据集的产业链和生态链尚未形成高质量数据集的专项规划面向 AI 的数据产业高质量发展科技日报加快建设人工智能高质量数据集,2025.2.11数据对于AI的重要性数据是智能的源头,评测的保障;无数据不智能从投入来看,数据重于模型;人工智能的战略竞争日益聚焦于数据AI的效果=80%的数据+20%的模型;更好的数据更好的AI数据优先 VS 模型优先9数据操控=模型优化?数据是外因,决定性因素;参
6、数是内因,直接性因素数据优先主动学习/重要性加权/领域自适应:通过挑选或重配数据能以更低成本更快提升泛化。噪声鲁棒/数据清洗:清洁标签与剔除噪声往往立竿见影。数据增强/对抗训练:刻意生成“有信息量”的样本改变有效训练分布,是提升鲁棒性的关键。模型优先统计学习理论:容量控制、正则化、归纳偏置决定可学性与上界。表达能力与优化可达性:更好的架构/优化器能显著扩大可学函数类,释放同一数据的价值。VS数据优先在可控性、可解释性、可操作性、实际效果等方面具有优势,是工程落地首选我们需要怎样的数据方法论才能推动大模型行业落地?我们需要怎样的机器员工大模型加持下的机器员工已远超简单的自动化工具,是能够代替领域