ReMem | arxiv 2026.03.13 | Paper Reading

ReMem | arxiv 2026.03.13 | Paper Reading

ReMem: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

本文提出ReMem-VLA——一种配备两组可学习查询的循环记忆VLA模型:帧级循环记忆查询用于在连续帧间传递信息以支持短期记忆,块级循环记忆查询用于跨时间块传递上下文以实现长期记忆。这些查询通过端到端训练实现相关上下文的动态聚合与维护,在无需额外训练或推理成本的情况下隐式引导模型决策。此外,为增强视觉记忆,我们提出历史观测预测作为辅助训练目标。

工作类型(首次/改进) 技术路线 创新点 日期
改进 Memory VLA Memory Architecture 2026-03-13

1.What?

ReMem-VLA,一种新颖的视觉语言动作模型架构,能够促进隐式任务相关记忆的持续提取与积累。我们方法的核心是将可学习的循环记忆查询集成到视觉语言动作模型中,使模型能够基于当前观测与历史背景的协同表征进行每次预测。为捕捉多尺度时序因果性,我们设计了一种双层循环查询方案:1) 一组帧级循环记忆查询,通过视觉语言模型捕捉当前帧的上下文,并原位融合到下一帧的查询中,形成一个在不增加序列长度的情况下跨帧传播短期记忆的循环回路;2) 一组块级循环记忆查询,以更粗的时间粒度在更长的时间间隔内更新,灵感来源于[9, 10]——与每步更新且易覆盖早期上下文的帧级查询不同,块级查询在更长间隔内累积信息,实现超越帧级循环所能保持的稳定长期记忆留存。两组循环查询集均通过固定的、无梯度的循环路径(第3.2节)而非可学习的循环动态进行更新。此设计使循环查询能够学习提取和存储哪些任务相关信息作为记忆,而记忆的传播方式是固定且非学习的。该设计赋能视觉语言动作模型有效关联短期与长期上下文,从而提升其在依赖记忆的操作任务上的性能。

此外,我们进一步引入过去观测预测,通过重建先前的观测来增强视觉记忆留存。具体而言,视觉语言模型主干联合处理视觉观测和语言指令,使用四种类型的可学习查询:(1) 用于短期记忆的帧级循环查询;(2) 用于长期记忆的块级循环查询;(3) 用于预测未来动作片段的、条件化至动作扩散模块的动作查询;(4) 条件化至图像头部的后见查询。

2.Why?

基于检索的方法严重依赖强线索的存在,并在规模扩大时易受干扰;扩展视野的方法无法处理超出上下文窗口的任务;基于点或关键帧的记忆过度简化环境状态,且受限于外部基础模型的可靠性。尽管[11, 33]将RNN式循环机制引入视觉语言动作模型,但二者均未展示长期记忆能力

3.How?

Model Architecture of ReMem-VLA
我们将ReMem-VLA设计为一个用于机器人操作的端到端框架。该架构包含五个关键组件:(1) 一个冻结的视觉语言模型主干,用于处理多模态输入——RGB观测   otRV×H×W×3 和语言指令 l ;(2) 可学习的动作查询 Qaction 和后视查询 Qimg  ,用于从视觉语言模型中提取特征以进行动作和图像预测;(3) 双级循环记忆查询——帧级 Qf 和块级 Qc ——用于跨时间步累积历史上下文;(4) 一个基于Transformer的连接器,具有双向注意力机制,支持所有查询之间的交互;(5) 用于未来动作生成和过去图像重建的预测头。

视觉语言模型主干与任务特定可学习查询 我们采用 Qwen3VL-2B 这一拥有20亿参数的视觉语言模型作为冻结主干 [53]。在每个时间步,主干通过其视觉编码器处理RGB观测,并通过其文本编码器处理语言指令,生成隐藏状态 HtRL×D ,其中 L 是序列长度,D 是隐藏维度。主干内部保持因果注意力。我们引入两组附加到输入序列的任务特定可学习查询:动作查询 QactionRNa×D   和后视查询 QimgRNimg×D   [54],其中 Na Nimg 表示查询令牌的数量。 Qaction 专注于提取对动作生成至关重要的特征,捕捉与操作相关的语义,而 Qimg  则提取用于预测过去视觉观测的特征,回忆先前观察到的视图。

双级循环记忆查询 为了实现跨不同时间尺度的记忆能力,我们引入了双级循环查询:用于短期保留的帧级记忆查询 QfRNf×D 和用于长期保留的块级记忆查询   QcRNc×D 。在每个时间步,两组记忆查询均关注视觉语言模型隐藏状态以及动作和后视查询 (Qaction,Qimg) ,以提取当前帧特征,从而产生更新的查询表示 Q~tf  *和 Q~tc  ,*它们编码了时间步 t 的观测信息。随后,这些表示通过指数移动平均传播到未来时间步。帧级记忆在每一时间步密集更新:

Qtf=βfQ~t1f+(1βf)Qt1f(5)

其中 βf[0,1]  是一个固定的指数移动平均系数。这种逐帧的密集传播为跟踪近期物体状态、进行中的动作以及即时时间依赖提供了细粒度的短期记忆。块级记忆在片段边界(每 k 帧)稀疏更新:

Qtc={βcQ~tkc+(1βc)Qtkc,若 tmodk=0Qt1c,否则(6)

其中 βc[0,1] 是块级指数移动平均系数。较低的更新频率导致相较于帧级的 (1βf)n 更慢的指数衰减  (1βc)n/k  ,从而实现了稳定的长时程记忆,能够保留初始物体配置、任务进度和长时间依赖。

无需梯度的循环更新路径 F 。在我们的架构中,循环更新路径 F (方程3和4)由视觉语言模型主干和基于指数移动平均的融合机制组成。理想情况下,训练一个循环模型以捕捉长期依赖需要通过时间进行梯度反向传播。

4.Takeaways:

移除所有循环查询会导致记忆能力完全崩溃,所有任务成功率急剧下降;在单层配置中,仅使用帧级查询难以维持长期记忆,导致记忆相关故障比例更高;而仅使用块级查询虽能提升长期记忆保持能力,却因按钮操作需要块级查询无法提供的短期记忆,导致整体成功率降低。双层模型在所有任务中均取得更优性能,表明两个层级的循环查询能为模型提供互补的记忆能力。

过往观察预测对不依赖视觉记忆的任务提升有限,但在视觉记忆密集型的"归还水果"任务中带来显著改善(34% → 82%),特别是在预测片段首帧时。实验结果同时表明,虽然双层级循环查询在空间、时序、片段和序列维度展现出强大的记忆能力,但其在保留视觉细节方面效果较弱,因而受益于过往观察预测。

局限性&未来工作:

尽管具备这些优势,当前模型的局限在于尚未经过大规模机器人数据训练,这可能影响其泛化性能。未来工作包括在大规模数据集上预训练ReMem-VLA,或将本记忆机制整合至现有预训练的视觉语言动作模型中。

ReMem | arxiv 2026.03.13 | Paper Reading

https://fanchenlex.github.io/reandings/ReMem/

Author

Wenzhuo Li

Posted on

2026-04-02

Updated on

2026-04-03

Licensed under

WeChatQQGoogle ScholarDailyLogRSS