RoboMemory | arxiv 2026.02.04 | Paper Reading

RoboMemory | arxiv 2026.02.04 | Paper Reading

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

###RoboMemory 通过模仿大脑结构,设计了四个协同工作的模块,特别是其创新的「终身具身记忆系统」,该系统包含空间、时间、情景和语义四种并行工作的记忆模块,极大地提升了机器人的学习效率和反应速度

工作类型(首次/改进) 技术路线 创新点 日期
首次 memory framework memory type 2026-02-04

1.What?

RoboMemory提出了一个框架,模仿大脑结构,设计了四个协同工作的模块,特别是其创新的终身具身记忆系统,该系统包含空间、时间、情景和语义四种并行工作的记忆模块,极大地提升了机器人的学习效率和反应速度。

2.Why?

  • 当前机器人在真实世界中面临的几大难题:
    • 无法持续学习新知识
      • 灾难性遗忘:这是机器学习领域的经典难题。当一个模型学习新知识时,它可能会覆盖或干扰旧的知
    • 复杂的记忆系统导致反应迟钝
      • 无法忍受的高延迟:为了让机器人不健忘,一个直观的想法是给它一个巨大的记忆库。但问题来了,每次行动前,如果机器人都要把它经历过的所有事情从头到尾「回忆」一遍,那它的反应会慢得令人发指。
    • 难以关联不同任务的经验
      • 难以捕捉的任务关联:机器人很难理解不同任务之间的内在联系。人类知道「从冰箱里拿苹果」和「从柜子里拿饼干」都包含了「导航到容器」->「打开容器」->「取出物品」这个共通的模式。但机器人可能把它们当成两个完全独立的任务来学习,无法举一反三,导致学习效率低下。
    • 在做决策时容易陷入死循环。
      • 规划中的死循环:在复杂的动态环境中,机器人需要不断地根据新情况调整计划。但有时,这会导致它在两个或多个选项之间反复横跳,迟迟无法做出最终决定并付诸行动。

3.How?

RoboMemory Pipeline
信息预处理器:(并行完成)

  1. 步骤总结器 : 将刚刚发生的事情(如机器人移动了一下,或者门被打开了)用一句话总结下来,形成工作记忆。例如:「我刚刚把红色的杯子放在了桌子上。」
  2. 查询生成器: 根据当前的所见所闻,生成一个用于「提问」长期记忆系统的问题。例如:「桌子上除了红色的杯子还有什么?」或者「我上次看到钥匙是在哪里?」

终身具身记忆系统(RoboMemory 最核心的部分)

  • 短期记忆 (Temporal Memory) :记录最近发生的几件事。
    • 实现: 一个先进先出(FIFO)的缓冲区。你可以把它想象成一个容量有限的便签本,比如只能记 3 件事。当第 4 件事发生时,第 1 件事就会被「挤掉」。但为了不完全丢失信息,在「挤掉」之前,一个语言模型会把这 3 件事总结成一个摘要,再存入更高层的记忆中。这实现了信息的有效压缩和传递。

RoboMemory Knowledge Graph

  • 空间记忆 (Spatial Memory) :理解和记忆物体在环境中的位置和相互关系。这是机器人物理交互的基础。

    • 实现: 一个动态更新的知识图谱
    • 动态更新的挑战: 真实世界是动态的。机器人把苹果从桌上拿到冰箱里,知识图谱就需要实时更新。如果每次更新都要重构整个图,那效率太低了。
    • 基于检索的增量式更新算法:当新信息(比如「苹果现在在冰箱里」)进来时,系统不会去动整个庞大的知识图谱。它会先检索出与「苹果」和「冰箱」相关的局部子图,然后在这个小范围内进行信息的融合、冲突的解决(比如删除「苹果在桌上」这个旧关系),最后再把这个更新后的小子图合并回主图。
  • 情景记忆 (Episodic Memory) : 完整地记录每一次任务的「故事」,包括目标、执行过程、遇到的困难和最终结果(成功或失败)。

    • 实现: 每个任务结束后,系统会将整个过程打包成一个「情景记忆实体」,存储在一个使用 RAG 技术的数据库里。当未来遇到相似任务时,机器人可以「翻阅」这本日记,寻找可借鉴的经验。
  • 语义记忆 (Semantic Memory) :从多次的情景记忆中提炼出通用的知识、规律和技能。这是实现「举一反三」的关键。

    • 实现: 在任务结束后,一个专门的模块会分析刚刚发生的情景,从中总结出成功的关键因素或失败的根本原因,形成抽象的「语义知识」,同样存入 RAG 数据库。比如,机器人可能会学到:「玻璃门通常是推开的,而木门通常是拉开的」,或者「拿起装满水的杯子时,动作要慢一点」。
      闭环规划模块:

规划者 - 评论家 (Planner-Critic) 机制

  1. 规划者 (Planner): 根据当前任务目标和从记忆系统中检索到的信息,制定一个初步的多步骤行动计划。例如:1. 走向冰箱 -> 2. 打开冰箱 -> 3. 拿出牛奶
  2. 评论家 (Critic): 在执行每一步之前,它会像一个严谨的监工,重新审视这一步在最新的环境状态下是否还合理。如果机器人走到冰箱前,发现冰箱门已经被别人打开了,评论家就会发现「打开冰箱」这一步是多余且错误的,于是它会立即「喊停」,要求规划者根据新情况重新规划。

原始的 Planner-Critic 机制有个缺陷。如果评论家过于「挑剔」,一直对规划者的计划不满意,机器人就会陷入「重新规划 ->被否决 ->再重新规划」的死循环,卡住不动。RoboMemory 做了一个简单而有效的修改:计划的第一步不经过评论家审核,直接执行。这保证了机器人至少能动起来,打破僵局,避免「分析瘫痪」。虽然这像个小「HACK」,但在工程实践中非常有效。

底层执行器:

负责将规划模块发出的高层抽象指令(如 pick_up(milk)),翻译成机器人机械臂和底盘可以执行的、精确的电机控制信号。在真实世界的实验中,研究者们使用了一个名为  π0  模型来承担这个角色,并通过 LoRA 微调技术来提升其在特定任务上的表现。

特别要说的是作者做了真机实验验证模型的终身学习的能力

他们让机器人执行 15 个不同的任务,每个任务连续执行两次,中间不清除或重置机器人的长期记忆。如果机器人真的从经验中学习了,那么第二次尝试的成功率应该会高于第一次

4.Takeaways:

  • 高效并行记忆架构RoboMemory 提出了模仿人脑、并行处理空间、时间、情景、语义四类记忆的架构,有效解决了复杂记忆系统的高延迟问题,为机器人智能体设计提供了模块化、并行化的新范式。
  • 动态知识图谱更新:创新性地提出了基于检索的增量式知识图谱更新算法,使机器人能在动态环境中高效维护空间关系,推动了机器人空间推理和物理世界理解能力的提升。
  • 终身学习实证:在真实厨房环境中验证了机器人终身学习的可行性,证明机器人能从过往经验持续提升任务成功率,增强了社区对机器人终身学习的信心。
  • 框架对模型能力的放大:实验显示,RoboMemory 框架能显著提升底层模型性能,甚至超越顶级闭源模型,强调了优秀智能体框架对模型能力释放的巨大作用。

局限性&未来工作:

  • 规划能力瓶颈:任务失败主要源于规划错误,说明即使记忆系统完善,底层 VLM 模型的推理与规划能力仍是整体性能的天花板,需进一步提升大模型的逻辑与因果推理能力。
  • 知行脱节问题:高层「大脑」规划与底层「身体」执行存在脱节,抽象指令在物理执行中易受环境复杂性影响,未来需加强高层与底层的协同与交互,实现「大脑 - 身体」一体化进化。
  • 泛化性与鲁棒性待提升:虽有真实环境验证,但实验场景受控,面对更复杂、开放的家庭环境时,感知、知识图谱扩展及大规模记忆管理等方面的鲁棒性和效率仍需突破。

RoboMemory | arxiv 2026.02.04 | Paper Reading

https://fanchenlex.github.io/reandings/RoboMemory/

Author

Wenzhuo Li

Posted on

2026-03-19

Updated on

2026-03-31

Licensed under

WeChatQQGoogle ScholarDailyLogRSS