ST4VLA Spatially Guided Training for Vision-Language-Action Models

Title: ST4VLA Spatially Guided Training for Vision-Language-Action Models
Authors: Jinhui Ye, Fangjing Wang, Ning Gao, Junqiu Yu, Yangkun Zhu, Bin Wang, Jinyu Zhang, Weiyang Jin, Yanwei Fu, Feng Zheng, Yilun Chen, Jiangmiao Pang
arXiv: https://arxiv.org/abs/2602.10109

ST4VLA瞄准的是 VLA 中常见的“语义懂了、空间丢了”问题。很多模型在动作监督下会牺牲几何 grounding，导致指令执行时定位和轨迹偏差累积。作者采用两阶段训练：先做空间引导预训练，再做带空间约束的动作后训练，让几何信号贯穿整个学习过程。

统一损失写成

L = L_{act} + α L_{point} + β L_{box} + γ L_{traj} .

其中 $(α, β, γ)$ 的平衡决定空间信息能否在动作梯度下存活。看实验时建议分三层：基础任务成功率、未见物体与语言改写鲁棒性、长时程干扰下误差累积。核心判断标准不是短程命中率，而是 rollout 后段是否仍保留稳定的空间对齐能力。

ST4VLA Spatially Guided Training for Vision-Language-Action Models

Figures