Category: readings - Zhuo's Blog

ACoT-VLA | arxiv 2026.01.16 | Paper Reading

ACoT-VLA | arxiv 2026.01.16 | Paper Reading

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

这篇文章提出了一个基础VLA模型，主要为VLA模型加入了动作链推理。

InternVLA-A1 | arxiv 2026.01.05 | Paper Reading

InternVLA-A1 | arxiv 2026.01.05 | Paper Reading

InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation

这篇文章提出了一个基础VLA模型，主要聚焦于解决快速移动场景的机器人操作能力。

PointWorld | arxiv 2026.01.07 | Paper Reading

PointWorld | arxiv 2026.01.07 | Paper Reading

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

这篇文章提出了一个大型预训练的三维世界模型，模型能够根据静态点云及与具体形态无关的机器人动作描述预测全场景三维点流运动，同时作者构建了大规模三维动力学建模数据集，涵盖真实与仿真环境中单臂、双臂、全身及移动操作等多种交互形态。该模型经多样化数据预训练后，仅需在开放场景中捕获的单帧RGB-D图像，无需额外数据或微调，即可在实体硬件上实现多种操作行为。

Learning to Remember:Exploring Multimodal Memory Mechanisms in Long Video Understanding | Reading Group

Learning to Remember:Exploring Multimodal Memory Mechanisms in Long Video Understanding | Reading Group

Learning to Remember: Exploring Multimodal Memory Mechanisms in Long Video Understanding

keywords: Memory, Long Video Understanding, VLA

论文分享主题是就是长视频理解领域的记忆模块应用，也是与我目前研究的方向比较契合

MemoryVLA | ICLR 2026 | Paper Reading

MemoryVLA | ICLR 2026 | Paper Reading

MEMORYVLA: PERCEPTUAL-COGNITIVE MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION

这篇文章提出了将memory引入VLA中，从而解决VLA的灾难性遗忘问。

$$\pi_{0.5}$ | arxiv 2025.04.22 | Paper Reading$

$\pi_{0.5}$ | arxiv 2025.04.22 | Paper Reading

$π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization

这篇文章提出了一个基础的VLA模型主要通过真机数据训练旨在让机器人可以适应家用场景。

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

这篇文章提出了一个空间引导的VLA基础模型。

SP-VLA | arxiv 2025.10.03 | Paper Reading

SP-VLA | arxiv 2025.10.03 | Paper Reading

SP-VLA: A JOINT MODEL SCHEDULING AND TOKEN PRUNING APPROACH FOR VLA MODEL ACCELERATION

这篇文章通过现有双系统进行动态调整以及动态剪枝来达到减低参数同时提升模型精度。

OpenVLA-OFT | RSS 2025 | Paper Reading

OpenVLA-OFT | RSS 2025 | Paper Reading

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

这篇文章通过对openvla进行微调并改进了action head达到了更好的效果。

OpenVLA | CoRL 2024 | Paper Reading

OpenVLA | CoRL 2024 | Paper Reading

OpenVLA: An Open-Source Vision-Language-Action Model

这篇文章基于Prismatic-7B VLM提出了一个统一的VLA模型架构。