SimpleVLA | arxiv 2025.9.11 | Paper Reading

Posted 2025-11-02Updated 2025-11-02readings4 minutes read (About 665 words)0 visits

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

这篇文章通过对GRPO改进为DAPO之后引入VLA达到很好的性能。

工作类型(首次/改进)	技术路线	创新点	日期
改进	RL	DAPO	2025-10-07

1.What？

SimpleVLA-RL：一个专为VLA模型设计的高效RL框架

2.Why？

（i）SFT扩展所需的大规模人工示教轨迹数据稀缺且成本高昂；
（ii）对存在分布偏移任务的泛化能力有限。

3.How？

Overview of SimpleVLA-RL
基于veRL，我们引入了VLA专用的轨迹采样、可扩展并行化、多环境渲染及优化损失计算
首重要价值。
受DeepseekR1启发将R1这类在线RL引入VLA仅需单调演示轨迹+0/1奖励信号即可实现高成功率
算法流程：
Step1: VLA模型与环境交互采样出多条不同轨迹
Step2: 根据环境反馈的任务是否成功的信息为每条轨迹赋予0/1的奖励值
Step3: 使用 GRPO等强化学习算法对模型进行On policy优化
对每个任务将仿真环境重复8次，将8个环境的state 0输入Policy model 中通过温度采样让policy model针对相同的state 输出不同的action。之后8个环境依次执行8个action更新得到的新的8个state 1.依次类推直到任务完成或者达到最大的Token上限。
由上述过程得到了多条轨迹。同时针对每条轨迹成功或失败也会有0/1表示（reward = 0/1）
将action和reward带入到GRPO中得到loss用于更新model

鼓励模型探索：

Dynamic Sampling
Clipping Higher
Higher Rollout Temperature 提升温度1.0→1.6

4.Takeaways:

1.RL有好的泛化性在其他任务上学习在未见过任务上也能有很好的效果
2.基础模型决定了模型的效果，基础模型越强加入RL后效果越好
3.在加入RL前基础模型首先要有一定高度基础能力
4.如果只用0条轨迹训练则成功率为0即使加了RL也是0
Pushcut现象：(即策略能够自主发掘训练过程中未见的行为模式)
对于RoboTwin中的部分任务原本的逻辑在引入RL后会自动学到一些新的解决方式，只要满足定义即可。
eg. 模型抓住罐子移到锅旁边，现在可以将罐子或者锅推到另一个物体旁边

局限性&未来工作：

作者采用的这种0/1reward在长程任务上表现不好

SimpleVLA | arxiv 2025.9.11 | Paper Reading

https://fanchenlex.github.io/reandings/SimpleVLA/

Author

Wenzhuo Li

Posted on

2025-11-02

Updated on

2025-11-02

Licensed under

#paper reading

Alipay

Wechat

SimpleVLA | arxiv 2025.9.11 | Paper Reading

这篇文章通过对GRPO改进为DAPO之后引入VLA达到很好的性能。

1.What？

2.Why？

3.How？

4.Takeaways:

局限性&未来工作：

Author

Posted on

Updated on

Licensed under

Like this article? Support the author with

ANNOUNCEMENT

Categories

Archives

Recents

Tags