《韩筱-Memory-Orchestration-final.pdf》由会员分享,可在线阅读,更多相关《韩筱-Memory-Orchestration-final.pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、Memory EngineeringDify 在记忆工程上的探索Harry Backend Engineer Dify.AI目录概览01为什么要有记忆管理Transformer 的根本限制02工业界现状应用层 vs 模型层03Dify 解决方案基于记忆架构的产品设计与实现04未来展望关于 Memory 未来的思考为什么要有记忆管理?解决大模型健忘的根本问题大模型是无状态的LLM 的出现改变了 AI 的范式但 Transformer 的设计让模型没有记忆每次调用都像重新认识世界,没有长期记忆模型没有记忆的代价无法提炼出关键信息无法判断哪些内容应该被遗忘上下文越长,噪音越多,性能越差模型不知道什么
2、重要忘什么、记什么,这件事太主观模型本身也没和人类目标完全对齐就像人和人沟通常有偏差,模型也一样对话中的目标偏移一开始,用户让模型帮忙编写一个 API 文档。随着对话深入,用户又询问了测试和部署的问题。模型开始围绕新话题生成回答,逐渐忘记最初的任务目标。最终输出的结果偏离了原意,这就是无状态模型的典型问题它没有真正的任务记忆。无用信息拖慢模型工具调用会返回大量数据有用信息不到 10%,却占了80%的上下文链接、图片地址等变成了噪音模型被这些冗余信息稀释了注意力无记忆模型的三大问题上下文稀释重要信息被淹没在冗余中注意力退化模型难以聚焦关键点性能问题上下文越长,速度越慢、成本越高重新审视上下文窗口
3、并不应该把所有信息全部发给模型:将上下文窗口仅仅理解为容量大小是一种误导。它更应该被视为一个存在性能瓶颈的 工作记忆。第二部分工业界现状工程化 vs 模型内化的技术路径储存:文本 vs 张量文本记忆(工程化方法)人类可读、可审计、可编辑高度的可移植性为 GPT-4 构建的记忆库可被 Claude 使用系统具有可观测性易于调试和编辑数据所有权清晰张量记忆(模型内化方法)高维、压缩的数学表示对人类来说是不透明的表示难以直接编辑深度绑定于特定模型架构理论上具有更高效率与模型原生表示兼容Memory 的两种实现路径模型内化记忆从根本上改造 Transformer 架构,使其本身具备可读写的、持久化的内
4、部状态。学术研究的前沿方向核心在于改变模型记忆以张量形式存在应用层工程化将 LLM 视为无状态的“处理单元”,在其外部构建完整的记忆系统。开发者通过各种工程技术来管理和编排输入到模型上下文窗口中的信息。当前工业界主流方法核心在于管理上下文不改变底层模型类 RAG 记忆框架Mem0提取对话关键信息 生成Embedding 存入向量库新版支持图数据库双存储像是给模型加了个智能记事本Zep把对话拆成结构化知识图谱查询时按图谱关系检索像AI的脑图,帮它理清人物与事件LangGraphLangChain 出品让模型自动生成知识节点(结构化信息)支持多会话共享记忆这三种方案都在怎么记得更结构化上下功夫。M
5、em0靠Embedding,Zep靠图谱,LangGraph让模型自己画知识图。这其实都还是数据数据库层的记忆。Agent Memory:让模型主动记自我判断与记忆选择模型开始具备自我判断与选择记忆的能力核心决策机制核心思路:让AI自己决定“要不要记”“记什么”“怎么记”迈向认知记忆虽然仍依赖提示工程,但更贴近“认知记忆”Agent 类记忆方案代表Letta(MemGPT)模型自己判断重要信息并压缩存储类似自我摘要,实现模型可控记忆SuperMemory通过特定提示语(法咒)让模型更新记忆实际仍是调用向量库,但用自然语言触发MemOS把记忆当作系统资源管理分为短期(激活)、长期(参数)、外部(
6、知识库)像给AI装了个记忆操作系统这些方案的想法都很有趣:Letta让模型自己写日记,SuperMemory靠提示更新记忆,而MemOS则是在构建一个AI的记忆管理系统,让模型能像人一样分类保存信息。各家应用层的核心科技:念法咒模型内化方法:在 Transformer 后引入记忆池概念与外部调整方案不同,模型内化方法旨在从根本上解决模型记忆问题,即让模型自身实现有状态记忆。这意味着记忆不再是外部管理的文本,而是模型内部参数的一部分,以张量(tensors)的形式存在。核心概念这类方法通常会在 Transformer 架构中引入一个额外的、可更新的记忆池(memory pool)。这个记忆池由一