InternVLA M1 | arxiv 2025.10.15 | Paper Reading

Posted 2025-11-07Updated 2025-11-07readings3 minutes read (About 500 words)0 visits

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

这篇文章提出了一个空间引导的VLA基础模型。

工作类型(首次/改进)	技术路线	创新点	日期
改进	VLA	空间引导	2025-11-05

1.What？

InternVLA M1 一个空间引导的VLA模型

2.Why？

序列动作生成中的时间冗余和视觉输入中的空间冗余

3.How？

Overview of InternVLA-M1
System 1 动作模型（Actor）采用 DiT 模型架构，具备独立的视觉和状态编码器，专注于动作生成和精细控制。
System 2（VLM Planner）基于预训练的多模态大模型作为视觉语言编码器，专注于空间理解和动作规划。在训练中同时引入视觉理解和动作联合监督，通过联合梯度优化实现视觉语义理解与运动控制的协同学习。
Querying Transformer 将变长输入映射为固定的隐藏空间特征，并通过跨层注意力机制选择性连接 VLM 的中间层，为动作专家提供高层语义信息与动作规划先验信息。
训练:
空间感知预训练：主要解决“看到”（Where to act）的问题，VLM 充分预训练多种空间感知表征，确保对目标和规划的精确定位；
基于空间规划的动作后训练：主要解决“做到”（How to act）的问题，通过空间提示将任务指令提取隐藏空间信息，提升机器人执行的稳定性和效率。例如，在“把玩具放进玩具箱”的任务中，模型会先识别玩具和容器，转化为嵌入特征，指导精准完成任务。
数据集：合成了专门面向抓取任务的 InternData·M1 数据集

4.Takeaways:

局限性&未来工作：

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

https://fanchenlex.github.io/reandings/InternVLAM1/

Author

Wenzhuo Li

Posted on

2025-11-07

Updated on

2025-11-07

Licensed under

#paper reading

Alipay

Wechat

InternVLA M1 | arxiv 2025.10.15 | Paper Reading

这篇文章提出了一个空间引导的VLA基础模型。

1.What？

2.Why？

3.How？

4.Takeaways:

局限性&未来工作：

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

ANNOUNCEMENT

Categories

Archives

Recents

Tags