ReMem | arxiv 2026.03.13 | Paper Reading

ReMem | arxiv 2026.03.13 | Paper Reading

ReMem: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries

本文提出ReMem-VLA——一种配备两组可学习查询的循环记忆VLA模型:帧级循环记忆查询用于在连续帧间传递信息以支持短期记忆,块级循环记忆查询用于跨时间块传递上下文以实现长期记忆。这些查询通过端到端训练实现相关上下文的动态聚合与维护,在无需额外训练或推理成本的情况下隐式引导模型决策。此外,为增强视觉记忆,我们提出历史观测预测作为辅助训练目标。

Read more
SOMA | arxiv 2026.03.25 | Paper Reading

SOMA | arxiv 2026.03.25 | Paper Reading

SOMA: Strategic Orchestration and Memory-Augmented System for Vision-Language-Action Model Robustness via In-Context Adaptation

SOMA通过升级冻结的VLA策略实现无需参数微调的鲁棒上下文适应。具体而言,SOMA不微调VLA主干的前提下通过在线流程运行,包括对比式双记忆检索增强生成(RAG)、归因驱动的大型语言模型(LLM)编排器以及可扩展的模型上下文协议(MCP)干预,同时离线记忆巩固模块持续将执行轨迹提炼为可靠先验知识。实现异步离线记忆整合,持续精炼历史经验。

Read more
MemER | arxiv 2025.10.23 | Paper Reading

MemER | arxiv 2025.10.23 | Paper Reading

MEMER: SCALING UP MEMORY FOR ROBOT CONTROL VIA EXPERIENCE RETRIEVAL

MemER 摒弃了 “暴力扩展上下文长度” 的传统思路,转而让机器人学会 “主动筛选并记忆关键信息”。核心设计围绕 “分层政策” 与 “动态关键帧管理” 展开,保留了现有VLA模型的优势,同时针对性解决了长时序记忆的痛点。

Read more
RoboMME | arxiv 2026.03.04 | Paper Reading

RoboMME | arxiv 2026.03.04 | Paper Reading

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

###密歇根大学、斯坦福大学和Figure AI联合完成的研究,创造了世界首个机器人记忆能力评估系统RoboMME,包含16个测试任务和77万训练步骤。

Read more
RoboMemory | arxiv 2026.02.04 | Paper Reading

RoboMemory | arxiv 2026.02.04 | Paper Reading

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

###RoboMemory 通过模仿大脑结构,设计了四个协同工作的模块,特别是其创新的「终身具身记忆系统」,该系统包含空间、时间、情景和语义四种并行工作的记忆模块,极大地提升了机器人的学习效率和反应速度

Read more
RMBench | arxiv 2026.03.01 | Paper Reading

RMBench | arxiv 2026.03.01 | Paper Reading

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

这篇文章由RoboTwin团队提出,基于原先的RoboTwin平台,在此基础上引入了9个记忆相关的任务从而为具身智能在仿真记忆部分提供了一个比较友好的benchmark,对于我目前的研究方向提供了一个很好的训练评测平台。

Read more
MEM | arxiv 2026.03.03 | Paper Reading

MEM | arxiv 2026.03.03 | Paper Reading

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

这篇文章由PI团队提出,基于原先的 π0.6 模型,在此基础上引入了长短期记忆从而大幅度提升了模型的性能,对于我目前的研究方向十分有借鉴意义。

Read more
ACoT-VLA | arxiv 2026.01.16 | Paper Reading
InternVLA-A1 | arxiv 2026.01.05 | Paper Reading
PointWorld | arxiv 2026.01.07 | Paper Reading

PointWorld | arxiv 2026.01.07 | Paper Reading

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

这篇文章提出了一个大型预训练的三维世界模型,模型能够根据静态点云及与具体形态无关的机器人动作描述预测全场景三维点流运动,同时作者构建了大规模三维动力学建模数据集,涵盖真实与仿真环境中单臂、双臂、全身及移动操作等多种交互形态。该模型经多样化数据预训练后,仅需在开放场景中捕获的单帧RGB-D图像,无需额外数据或微调,即可在实体硬件上实现多种操作行为。

Read more
WeChatQQGoogle ScholarDailyLogRSS