BridgeVLA | NIPS 2025 | Paper Reading

Posted 2025-11-07Updated 2025-11-07readings3 minutes read (About 487 words)0 visits

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

这篇文章基于OpenVLA将嵌入空间投影到共享空间从而进行更好学习。

工作类型(首次/改进)	技术路线	创新点	日期
改进	3D VLA	internal heatmap	2025-9-14

1.What？

提出了预测heatmap的新范式的3D VLA

2.Why？

1.目前VLA模型在在2D上效果很好，能不能将其拓展到3D上？
3D-VLA之前的工作还有一些问题：
WM-based：高数据效率，分级模块会有累计误差
pointVLA：将2d信息送入VLM中将3D信息单独用pointcloud encoder提取对应的特征，将VLM输出的token传给action expert之后与3D信息进行concat在输出动作
lift3D：给2D基础模型3D操作能力
1.隐式表征提取：通过重建场景的深度来让模型学到这种隐式的表征
2.显示具身操作：输入点云
spatialVLA：2D 图像+深度估计(每一个像素的深度)+得到每个像素的3D位置，将3D位置无空间结构Token转换为相应的embedding和无空间的Token

3.How？

Overview of BridgeVLA
insight：将预训练和微调阶段的输入输出全对齐到一个共享的2D空间可以减小Gap使3DVLA的潜力发挥
将openVLA模型的主体结构的输出进行了调整，不再输出Token而是先生成一个heatmap(VLM&VLA)
再将其解码得到一个3D Action

4.Takeaways:

局限性：

1.在未见类别上表现不好
原因：VLM无法很好帮助指导悬空的点；预训练数据较完美的第三人称视角，单微调图像有残缺
未来工作：
1.更好的预训练
在图像输入数量上对齐；用更多类型的数据
2.灵巧操作
叠衣服
组装纸盒
扔抓

BridgeVLA | NIPS 2025 | Paper Reading

https://fanchenlex.github.io/reandings/BridgeVLA/

Author

Wenzhuo Li

Posted on

2025-11-07

Updated on

2025-11-07

Licensed under

#paper reading

Alipay

Wechat

BridgeVLA | NIPS 2025 | Paper Reading

这篇文章基于OpenVLA将嵌入空间投影到共享空间从而进行更好学习。

1.What？

2.Why？

3.How？

4.Takeaways:

局限性：

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

ANNOUNCEMENT

Categories

Archives

Recents

Tags