彻底戳穿AI「失忆症」！超越OpenAI全局记忆，中国队开源LLM记忆操作系统

市场资讯 2025.07.07 13:36

新智元报道

编辑：编辑部

【新智元导读】大语言模型越来越「聪明」，但缺失记忆：记不住、改不了、学得慢。国内顶尖团队干脆打造出操作系统级的AI记忆框架MemOS，让模型「记得住、改得了、学得快」。相关成果现已开源！关键还可商用。

2024年7月，记忆张量团队首次提出了基于分层记忆建模的忆立方（Memory³）框架，证明了仅依赖参数记忆和检索增强生成（RAG）的模型难以在效率、可追溯性与长期适应性之间取得有效平衡。

这一研究视角深入揭示了当前人工智能在长期知识管理与个性化演进方面存在的本质缺陷。

虽然，以大语言模型（LLM）为代表的AI助手已渗透到生活各个领域，它们足够聪明，也足够博学。

但我们清楚地知道，它们距离真正成为「老师」、「同事」、「专家」或「教练」将面临难以逾越的鸿沟——「记忆」缺失！

我们期待LLM像老师一样，不仅能传授知识，更能因材施教，精准记忆每位用户的优劣与难点，提供个性化指导；或者像同事一样，不仅能协作解决当下的问题，更能通过持续的经验与上下文积累，在未来的协作中更加默契与高效…

这些对记忆能力的深层需求，恰恰是现阶段AI的薄弱环节。

当前的大模型主要依赖两类传统记忆机制：

由此带来的结果是，模型能够「看得懂、答得出」，却「记不住、改不了、学不快」：

针对这些核心问题，记忆张量（上海）科技有限公司联合上海交通大学、中国人民大学、同济大学、浙江大学、中国电信等多家顶尖团队，共同研发并开源了MemOS——

一套专为大模型设计的类操作系统级记忆管理框架，致力于全面提升大模型的长期记忆能力和个性化交互体验。

该项目在Memory3项目（记忆分层大模型）的研究基础上，系统性地将「记忆」视为LLM的核心资源，通过统一管理与调度，旨在填补当前语言模型在结构化、持久性、自适应记忆能力上的关键空白，让大模型真正实现「记得住、改得了、学得快」。

更多关于这个项目的内容可以参考他们的官网、论文、以及开源代码。

官网：https://memos.memtenor.cn

论文：https://memos.openmem.net/paper_memos_v2

代码：https://github.com/MemTensor/MemOS（Preview版本）

如果想要更直接和项目开发团队联系，MemOS团队还提供了微信群和Discord群。

Discord地址：https://discord.gg/Txbx3gebZR

图2：社区二维码

接下来，我们将围绕MemOS的动机、核心概念MemCube、具体实现、记忆调度评估与未来展望等方面进行逐一解析。

MemOS

从「被动生成器」到「主动记忆体」

「记忆」在学术界和工业界的确也有相关的研究了，一些相关的框架（比如，Mem0，Zep等）也有提出来，但是这些框架在记忆层面普遍存在「弱结构、弱管理、弱融合」的系统性短板。

简单来说，这些框架把「记忆」摆上了台面，让用户意识到可以去主动管理它们。然而，如何设计记忆框架更便于用户对记忆的主动管理仍是难题。

MemOS提出了一种新的范式：将「记忆」从模型运行的隐性副产物，提升为具备生命周期、调度策略与统一结构的「一级资源」，并围绕其构建操作系统级的治理机制。

为此，MemOS将复杂的记忆系统性地划分为三类核心形态，为智能体多层次认知打下结构性基础。

MemCube

统一调度记忆的「原子单元」

如何统一存储这三种形态的记忆？MemOS提出了标准化的记忆封装结构——MemCube。

MemCube本身可以是一个Git仓库，MemOS在HuggingFace平台上部署了一个简单的demo MemCube供用户理解与使用。

如此一来，记忆的创建、修改、分发都变得更加现代，也更靠近大模型生态的中心。

由图5可见，MemCube是一个具备自描述、自管理能力的「记忆原子」。

每个MemCube都包含四种文件：MemCube配置项，明文记忆，激活记忆和参数记忆。

每种记忆文件都可能包括：

MemCube中的三种记忆形态可以灵活的转换，例如，将频繁使用的明文规则（明文记忆）转化为激活模板（激活记忆），或将稳定的行为模式（激活记忆）蒸馏为轻量级参数模块（参数记忆），让记忆系统具备了「生长、重构」的自主演化能力。

类操作系统实现架构

三层协同，高效运转

从代码功能角度来看，MemOS构建了一套包含接口、操作、基础设施的三层体系架构。

MemOS为什么高效？

从Next-Token Prediction到Next-Scene Prediction

在传统的大模型问答系统中，生成流程依然遵循同步的Next-Token机制：模型接收用户问题→实时检索外部片段→按token逐字生成答案。

检索或计算产生的任何停顿，都会直接拉长整条推理链路，知识注入与生成紧密耦合，导致GPU容易出现空等，用户端响应时延明显。

与这种传统范式不同，MemOS从记忆建模的视角出发，提出了记忆调度范式，通过设计异步调度框架，提前预测模型可能需要的记忆信息，显著降低实时生成中的效率损耗。

MemOS实现了针对MemCube中的三种核心记忆类型（参数记忆、激活记忆、明文记忆），以及外部知识库（包括互联网检索与超大规模本地知识）等多元知识的联合调度。

依托对对话轮次与时间差的精准感知，系统能够智能预测下一个场景中可能被调用的记忆内容，并动态路由与预加载所需的明文、参数和激活记忆，从而在生成阶段即刻命中，最大化信息引入的效率和推理的流畅性。

效果如何？评测数据说话

LoCoMo记忆评测

为系统性验证MemOS在真实应用场景下的表现，MemOS团队基于LoCoMo数据集进行了全面评测。

作为当前业界广泛认可的记忆管理基准，LoCoMo已被多种主流框架采用，用于检验模型的记忆存取能力与多轮对话一致性。

从官方公开的评测数据来看，MemOS在准确率和计算效率上均实现了显著提升，相较于OpenAI的全局记忆方案，在关键指标上展现出更优的性能表现，进一步验证了其在记忆调度、管理与推理融合方面的技术领先性。

其论文中也提供了更详尽的对比实验结果，我们可以清晰地看到：

综上，凭借系统级优化与灵活的记忆调度机制，MemOS在多轮对话记忆管理的多样化任务中均展现出出色的表现，整体性能优于当前主流的多种基线方法。

KV Cache记忆评测

除了通用的记忆能力评估，研究团队还重点考察了MemOS所提出的KV Cache记忆机制在推理加速方面的实际效果。

通过在不同上下文长度（Short/Medium/Long）以及不同模型规模（8B/32B/72B）下进行对比测试，系统性评估了缓存构建时间（Build）、首Token响应时间（TTFT）以及整体加速比（Speedup）等关键指标。

实验结果（见图10）表明，MemOS在多种配置下均显著优化了KVCache的构建与复用效率，使推理过程更加高效流畅，有效缩短了用户的等待时延，并在大规模模型场景中实现了可观的性能加速。

实验结果表明，随着模型规模和上下文长度的增长，KV缓存带来的加速收益呈现显著上升。

以Qwen3-8B为例，在长上下文条件下，首Token响应时间加速比最高达到94.2%；在超大规模模型Qwen2.5-72B上，依然能稳定保持在70%以上，显著提升了多轮推理的响应速度和算力利用率。

这些结果进一步验证了，在「高频调用+长期记忆」的实际生产场景中，缓存复用是提升系统吞吐与用户体验的关键路径，也为未来打造更高效、更智能的记忆调度器奠定了坚实的技术基础。

展望未来

从单一智能体到「记忆生态系统」

随着大模型的发展逐步进入规模边际收益递减阶段，从以数据和参数为中心转向以「记忆」为中心的范式变革，正成为推动模型能力跃迁的关键路径。MemOS作为首个将「记忆」纳入系统级治理的基础设施，正在为下一代AGI打造一个「可管理、可迁移、可共享」的运行底座。

为了进一步释放记忆的潜力，研究团队提出了一个更具前瞻性的目标：构建一个去中心化的记忆生态系统（Memory Ecosystem）。

基于通用的记忆互操作协议（MIP，Memory Interchange Protocol），未来的AI智能体将具备以下能力：

通过将记忆管理从模型推理中成功解耦，MemOS正在助力大模型从单一的语言处理器迈向具备持久认知能力的个性化智能体，为通向通用人工智能铺设新的基础设施。

OpenMem社区

共建开放记忆底座，赋能智能系统普惠未来

MemOS生态的持续演进与共享共建，离不开社区的深度参与和多方协作。为此，研究团队发起并打造了一个开放、协作、共创的大模型记忆技术社区——OpenMem，致力于推动记忆管理、记忆增强与记忆共享的研究与应用走向可管理、可迁移、可共享的新阶段。

当前社区由来自记忆张量、上海交通大学、同济大学、浙江大学、中国科学技术大学、北京大学、中国人民大学、北京航空航天大学、南开大学、上海算法创新研究院等高校研究团队等研究+产业团队共同组成，社区热烈欢迎对AI模型记忆感兴趣的研究或产业团队加入，共建开放记忆底座，赋能智能系统普惠未来。

联系方式：contact@openmem.net

MemOS开源框架持续迭代计划

社区团队也规划了下一阶段的部分关键迭代方向，欢迎开发者加入共建：

技术能力迭代

评测体系建设

开发者工具链

关于记忆张量

记忆张量（上海）科技有限公司是上海算法创新研究院孵化的新型大模型公司，由中科院院士担任首席科学顾问。

公司聚焦基本原理驱动的系统性创新，以「低成本、低幻觉、高泛化」为核心特色，致力于探索符合中国国情的大模型发展新路径，推动AI应用更广泛落地。

公司持续围绕大模型记忆增强与管理框架进行技术迭代，自主研发的基于记忆分层架构的「忆³」大模型已实现商业化落地，业务稳步增长，获得招商证券、中国银行、中国电信等头部国央企业认可。

新浪科技股票

彻底戳穿AI「失忆症」！超越OpenAI全局记忆，中国队开源LLM记忆操作系统

图1：MemOS整体功能架构示意

图3：树状明文记忆示意图

图4：三种记忆类型

图5：MemCube示例

图6：MemOS代码实现架构

图7：记忆调度

图8：基于LoCoMo基准的对比评测结果

图9：完整评测结果

图10：KV Cache评测结果

图11：Mem-training Scaling