张恺-科学智能体：从数据驱动到认知涌现的科研基础设施升级.pdf-三个皮匠报告

1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit张张恺恺上上海海开开源源信信息息技技术术协协会会专专委委会会副副主主任任专注人工智能及大数据领域研究15+年，在金融/工业制造领域从事算法相关技术研发与团队管理工作，对大模型预训练到应用，互联网个性化推荐及广告算法服务有深入研究和实践，具备多次从零到一构建数据团队或算法团队的经验。带领团队构建AI平台，沉淀数十项文本解析，图像识别，语音识别等

2、基础标准化能力，并通过传统AI结合大模型的方式实现金融数据治理、智能客服，智能投研及投顾，智能舆情分析服务，智能风控反欺诈，个性化推荐及搜索服务等各类AI产品和智能化服务，为企业实现降本增效，具备千万级日活产品设计及构建能力。演演讲讲主主题题：科科学学智智能能体体：从从数数据据驱驱动动到到认认知知涌涌现现的的科科研研基基础础设设施施升升级级ML-SummitML-Summit2 20 02 25 5 全球机器学习技术大会科科学学智智能能体体：从从数数据据驱驱动动到到认认知知涌涌现现的的科科研研基基础础设设施施升升级级张恺上海开源信息技术协会专委会副主任 ML-SummitML-Summit目

3、目录录AI Agent发展科学智能体赋能科研智能体的未来ML-SummitML-SummitML-SummitML-SummitAI Agent：LLM 推动 AI Agent 进入新阶段LLM 推动 AI Agent 进入新阶段。AI Agent 经历了几大阶段，包含：1）符号 Agent：采用逻辑规则和符号表示来封装知识并促进推理过程，典型代表为基于知识的专家系统；2）反应 Agent：主要关注 Agent 与其环境之间的交互，强调快速和实时的响应，设计时优先考虑直接的输入输出映射；3）基于强化学习的代理：主要关注如何使 Agent 通过与环境的互动进行学习，典型代表如 AlphaGo；4

4、）具有迁移学习和元学习的 Agent：引入迁移学习实现不同任务之间知识的共享和迁移，通过元学习使 Agent 学习如何学习；5）基于大型语言模型(LLM)的代理。将 LLM 作为大脑的主要组成部分或 Agent 的控制器，并通过多模态感知和工具利用等策略扩展其感知和行动空间，通过思维链（CoT）和问题分解等技术使 Agent获得与符号代理相当的推理及规划能力，并且可以通过从反馈中学习和执行新的行动，获得与环境的互动能力。Symbolic AgentsReactive agentsReinforcement learning-based agentsAgents with transfer le

5、arning and meta learningLarge language model-based agents符号Agent在人工智能研究的早期阶段，使用的主要方法是符号人工智能，其特点是依赖符号逻辑该方法使用逻辑规则和符号表示来封装知识，便于推理过程此时Agent主要关注两个问题：转导问题和表示/推理问题反应Agent主要侧重于Agent与其环境之间的互动强调快速和实时的反应智能体主要基于感知-行为循环，有效地感知环境并对环境做出反应通常需要较少的计算资源，实现更快的响应但可能缺乏复杂的更高级别的决策和规划能力基于强化学习的Agent通过与其环境的交互来学习，使其能够在特定任务中获得最大

6、累计回报最初，RLAgent主要基于策略搜索和值函数优化等基本技术，例如Q学习随着深度学习的兴起，深度强化学习(DRL)出现如AlphaGo自主学习强化学习面临的挑战包括训练时间长、样本效率低和稳定性问题具有迁移学习和元学习的Agent迁移学习来加快Agent在新任务上的学习，即泛化元学习侧重于学习如何学习，当面临新的任务时，Agent可以通过利用获得的一般知识和策略来迅速调整其学习方法，从而减少对大量样本的依赖基于大型语言模型的Agent，集大成者使用LLM作为智能体的主要大脑组件或控制器，并通过多通道感知和工具利用等策略扩展其感知和行动空间通过思维链(CoT)和问题分解等技术展示出与符号A

张恺-科学智能体：从数据驱动到认知涌现的科研基础设施升级.pdf

相关报告