《马骁腾_迈向经验智能:从Context Engineering到Context Learning.pdf》由会员分享,可在线阅读,更多相关《马骁腾_迈向经验智能:从Context Engineering到Context Learning.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、迈向经验智能迈向经验智能Towards Experiential IntelligenceMacaron AI/Mind Lab/MinTRL LoopContext LearningEnvironment x Algorithm x Infra骁腾骁腾Macaron AI 席科学家、Mind Lab Director把真实任务、真实反馈、真实偏把真实任务、真实反馈、真实偏好好 变成持续更新模型的系统回变成持续更新模型的系统回路路About Me骁腾 清华动化系博博后,RL Researcher Macaron AI 席科学家,Mind Lab Director 前 Fellou 浏览器算法负
2、责,Eko 项主要贡献者1预训练的红利消失预训练的红利消失2AI 已经完成已经完成“义务教育义务教育”100尖端模型平均尖端模型平均 IQ第次稳定越过类平均智区间。73%图灵判别胜率图灵判别胜率Persona 条件下,模型已能在多数场 景通过图灵测试的判别。6-8 逼近满分的周期逼近满分的周期榜单已经压缩到半年级别,迭代速度 明显变快。3The Second Half/Era of Experience4从从 Brain 到到 MindBrain知识压缩 静态 prior次性训练后不再更新 回答“会不会、懂不懂”Mind世界模型+我模型 定义“更好”的价值函数 通过经验持续修正在真实社会环境形
3、成期稳定性IQ推理能推理能EQ社会理解社会理解XQ从经验学习从经验学习5Macaron AI:以以 RL loop 组织经验智能组织经验智能6Research-Product Co-design:环境环境 算法算法 Infra7算法算法 /AlgorithmLoRA RLLoRA RLTIMR3为什么是为什么是 LoRA RLLoRA RL 的四个判断的四个判断1.学习率合适时,效果能贴近全量微调2.更的 base 带来更好的 prior3.训练成本更低,显存压也更4.推理成本更低:one base+multi-lora serving,更适合持续迭代81T LoRA RL 已经是现实已经是现
4、实程能程能1T参数规模参数规模64 x H800训练资源训练资源10%成本降幅成本降幅9与与 Thinking Machines 同期完成同期完成 1T LoRA-RL101T LoRA RL 为什么难为什么难MoE 会放会放训推不训推不致致路由在推理和训练之间出现轻微偏差,就 会被模型结构放。TIM 是是 silent failure mode模型看起来还能跑,但 reward 和真实推 理表现开始脱节。先把训练和推理对先把训练和推理对先把链路对,损失函数才能发挥作。11PART 02Personal IntelligenceMemoryContext LearningMemoryLoRAS
5、cale Number of Models12Scale-Up/Scale-Down/Scale-OutScale-Up先证明 frontier prior 值得训。1T LoRA RL 已经把这件事做 成了。Scale-Down rank=8-32 是现实程区间。下步是把 adaptor 做(rank=1)、做稳、做便宜。Scale-Outone base+many LoRA,是 one-person-one-model 的系 统基础。13Model-based Memory x Experience Data14从从 Context Engineering 到到 Context Learn
6、ing15Context Learning 如何解决如何解决期记忆期记忆16Context Learning 带来的三个系统结果带来的三个系统结果Lower training barrier更多产品与程团队能够直接把真实 交互变成训练输。Self-evolutionskills 会逐步从 prompt-space 沉成 参数层能。One Person One Model个性化模型单元开始出现,期 记忆与偏好也开始连成闭环。17LoRA as MemoryContext2Lora如果构造的训练数据和实际测试数 据同分布,那么很少的训练数据就 可以达到量合成数据的效果LoRA 适合记什么适合记什么