Title: BagelVLA Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation
Authors: Yucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen
arXiv: https://arxiv.org/abs/2602.09849
BagelVLA要解决的是长时程操作里“计划和执行逐步脱节”的老问题:只做动作自回归,早期微小偏差会在后续被不断放大。作者提出交错式生成流程,把语言推理、视觉前瞻和动作解码放进同一闭环,让系统在执行中持续重解释任务语义并校正短期未来。
其训练目标写成
并通过 residual flow guidance 在不显著拉高时延的前提下提取预测特征。阅读这篇时建议不要只看最终成功率,而要看分阶段子目标完成率和早期犯错后的恢复能力,这更能体现“交错式”结构是否真正提供闭环增益。潜在风险在于模块耦合后时序调度更敏感,预测偏差也可能反向污染动作生成。
Figures
图像说明:该论文 arXiv html 页面当前未提供可直接引用的论文图像资源(仅站点静态图标),此处不插入伪造图片链接。