BridgeVLA | NIPS 2025 | Paper Reading

BridgeVLA | NIPS 2025 | Paper Reading

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

这篇文章基于OpenVLA将嵌入空间投影到共享空间从而进行更好学习。

工作类型(首次/改进) 技术路线 创新点 日期
改进 3D VLA internal heatmap 2025-9-14

1.What?

提出了预测heatmap的新范式的3D VLA

2.Why?

1.目前VLA模型在在2D上效果很好,能不能将其拓展到3D上?
3D-VLA之前的工作还有一些问题:
WM-based:高数据效率,分级模块会有累计误差
pointVLA:将2d信息送入VLM中将3D信息单独用pointcloud encoder提取对应的特征,将VLM输出的token传给action expert之后与3D信息进行concat在输出动作
lift3D:给2D基础模型3D操作能力
1.隐式表征提取:通过重建场景的深度来让模型学到这种隐式的表征
2.显示具身操作:输入点云
spatialVLA:2D 图像+深度估计(每一个像素的深度)+得到每个像素的3D位置,将3D位置无空间结构Token转换为相应的embedding和无空间的Token

3.How?

Overview of BridgeVLA
insight:将预训练和微调阶段的输入输出全对齐到一个共享的2D空间可以减小Gap使3DVLA的潜力发挥
将openVLA模型的主体结构的输出进行了调整,不再输出Token而是先生成一个heatmap(VLM&VLA)
再将其解码得到一个3D Action

4.Takeaways:

局限性:

1.在未见类别上表现不好
原因:VLM无法很好帮助指导悬空的点;预训练数据较完美的第三人称视角,单微调图像有残缺
未来工作:
1.更好的预训练
在图像输入数量上对齐;用更多类型的数据
2.灵巧操作
叠衣服
组装纸盒
扔抓

BridgeVLA | NIPS 2025 | Paper Reading

https://fanchenlex.github.io/reandings/BridgeVLA/

Author

Wenzhuo Li

Posted on

2025-11-07

Updated on

2025-11-07

Licensed under

WeChatQQGoogle scholarDailyLogRSS