Title: Self-Correcting VLA Online Action Refinement via Sparse World Imagination Authors: Chenyv Liu et al. arXiv: https://arxiv.org/abs/2602.21633

arXiv 页面无稳定直链图片(HTML 侧未提供可长期复用的 figure URL);Telegram 卡片图改用本地提取关键图。

Problem framing

该工作把 VLA 从“单次前向决策”推进到“在线稀疏想象-纠偏闭环”。核心不是做重规划,而是在执行中低频触发世界模型想象,对下一段动作进行局部修正,降低长时任务误差累积。

Core method

该方法围绕 Robotics/VLA 主线中的可扩展性与鲁棒性问题,采用“结构化中间表示 + 任务约束”的方案,而非纯参数堆叠。

Key equations and mechanisms

策略先给出候选动作块 ,再由稀疏想象模块估计偏差风险 。当 时触发修正: 其中 来自轻量世界模型滚动。等价于事件触发 MPC 的近似形式,计算成本受控。

Experiment reading guide

  1. 先看主任务成功率与长时地平线性能曲线。
  2. 再看消融:去掉关键机制后的退化幅度。
  3. 最后看跨场景/跨形态泛化,判断是否对真实机器人部署有意义。

Limitations

  • 真实系统 latency、感知噪声、接触不确定性可能弱化离线收益。
  • 数据分布若与目标场景差异过大,机制优势可能被 domain gap 吞噬。

Future work

  • 与在线校准/测试时自适应结合,形成闭环部署范式。
  • 与更强物理先验(接触、动力学约束)联合训练。

Replication angle

  • 优先复现作者公开 benchmark 上的最小闭环。
  • 记录可复现实验的三个关键旋钮:训练数据粒度、动作块长度/控制频率、推理时纠偏触发阈值。
  • 评估指标建议补充“失败恢复时间”和“单次任务能耗”。

Graph: Paper Node 2602.21633