《滕爱龄_Agent 时代需要一个什么样的基座模型.pdf》由会员分享,可在线阅读,更多相关《滕爱龄_Agent 时代需要一个什么样的基座模型.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、滕爱龄(小狼)阶跃星辰(StepFun)开发者业务负责人CCF 开源技术委员会执委OpenAtom 技术委员会导师OpenClawOpenClaw 引领的引领的“养龙虾养龙虾”热潮热潮ClawBot-MoltBot-OpenClaw-OpenClaw Foundation1.GitHub1.GitHub StarStar 326k+326k+,Agent Agent 这种产品形态火了这种产品形态火了一个干净的网关、一个序列化的 Agent 循环、类型化的工具注册、.md 文件做记忆Agent 的能力天花板,由底层基础模型决定,优秀的框架无法弥补基座模型的短板2.2.优秀的优秀的 AgentAg
2、ent RuntimeRuntime,体验高度依赖底层模型,体验高度依赖底层模型3.3.AgentAgent 商业化元年,带来商业化元年,带来 AgentAgent NativeNative 组织诞生组织诞生强推理+深理解+精准行动用户意图深度理解推理与规划能力反思与自我纠错精准工具调用聪明聪明 IntelligenceIntelligence0101长程稳定+抗干扰+目标一致长上下文处理与推理端到端任务完成状态追踪与抗干扰意图一致性保持专注专注 FocusFocus快+低成本+架构原生推理速度优化Token 成本控制原生多轮推理编排框架兼容高效高效 EfficiencyEfficiency0
3、 02 20 03 3AgentAgent 时代对基模的三大核心要求时代对基模的三大核心要求智力是智力是 AgentAgent 的根基的根基精准工具调用是聪明的核心体现精准工具调用是聪明的核心体现AgentAgent 不是回答好一个问题,不是回答好一个问题,而是在开放环境中自主完成多步骤任务而是在开放环境中自主完成多步骤任务 每个请求都触发搜索/API 调用 不判断自身知识是否已够 工具调用参数不准确、格式错误 一次调用多个重复功能的工具 忽略工具返回的错误信息 反例:无脑调用反例:无脑调用 先评估是否需要外部工具 选择最合适的单一或多个工具 参数严格匹配 Schema 理解返回值并合理处理异
4、常 在正确时机触发、正确时机停止 正确:精准调用正确:精准调用长程任务中的稳定与一致性长程任务中的稳定与一致性1.1.长上下文处理长上下文处理在 100K-1M 中保持对早期信息的准确引用和推理2.2.端到端完成度端到端完成度追求任务的闭环完成,而非“差不多就行”3.3.状态追踪状态追踪始终明确“在做什么、做到了哪一步、下一步做什么”4.4.抗干扰能力抗干扰能力面对工具异常、需求变更、环境变化保持稳定成本效率是一等公民成本效率是一等公民AgentAgent 的成本放大效应的成本放大效应传统对话 1x Agent 任务 10-100 xAgentAgent 总耗时总耗时推理次数*单次延时+工具耗
5、时当需要 10-20 次推理时,单次延迟差异被成倍放大速度优先速度优先推理速度直接影响用户体验和系统吞吐量 架构级降本架构级降本 MoE 架构 3:1 滑动窗口与全局注意力混合架构 原生多轮支持原生多轮支持 架构层面支持高效多轮推理StepStep 3.53.5 FlashFlash:为:为 AgentAgent 而生的基础模型而生的基础模型推理速度最高 350 TPS稀疏 MOE 架构:每个token 仅激活 110 亿个参数 更快更快在 Agent 场景和数学任务上媲美闭源模型MTP-3:模型一次预测 3 个 Token,效率翻倍 更强更强胜任复杂、长链条任务 更稳更稳制图时间 2026/
6、02/02预训练预训练/中训练中训练/后训练权重、多精度量化、百万级后训练权重、多精度量化、百万级 SFTSFT 数据数据 调用总量月榜调用总量月榜/日榜全球第一日榜全球第一 OpenRouterOpenRouter StepStep PlanPlan:多模型多模态的:多模型多模态的 AgentAgent 能力订阅方案能力订阅方案StepStep 3.53.5 FlashFlashStepStep 3.53.5 FlashFlash 26032603StepAudioStep