InternVLA M1 | arxiv 2025.10.15 | Paper Reading

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

这篇文章提出了一个空间引导的VLA基础模型。

工作类型(首次/改进) 技术路线 创新点 日期
改进 VLA 空间引导 2025-11-05

1.What?

InternVLA M1 一个空间引导的VLA模型

2.Why?

序列动作生成中的时间冗余和视觉输入中的空间冗余

3.How?

Overview of InternVLA-M1
System 1 动作模型(Actor)采用 DiT 模型架构,具备独立的视觉和状态编码器,专注于动作生成和精细控制。
System 2(VLM Planner) 基于预训练的多模态大模型作为视觉语言编码器,专注于空间理解和动作规划。在训练中同时引入视觉理解和动作联合监督,通过联合梯度优化实现视觉语义理解与运动控制的协同学习。
Querying Transformer 将变长输入映射为固定的隐藏空间特征,并通过跨层注意力机制选择性连接 VLM 的中间层,为动作专家提供高层语义信息与动作规划先验信息。
训练:
空间感知预训练:主要解决“看到”(Where to act)的问题,VLM 充分预训练多种空间感知表征,确保对目标和规划的精确定位;
基于空间规划的动作后训练:主要解决“做到”(How to act)的问题,通过空间提示将任务指令提取隐藏空间信息,提升机器人执行的稳定性和效率。例如,在“把玩具放进玩具箱”的任务中,模型会先识别玩具和容器,转化为嵌入特征,指导精准完成任务。
数据集:合成了专门面向抓取任务的 InternData·M1 数据集

4.Takeaways:

局限性&未来工作:

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

https://fanchenlex.github.io/reandings/InternVLAM1/

Author

Wenzhuo Li

Posted on

2025-11-07

Updated on

2025-11-07

Licensed under

WeChatQQGoogle scholarDailyLogRSS