Title: Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation
Authors: Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong
arXiv: https://arxiv.org/abs/2603.05185

论文针对长时程操作里 VLA 常见的“前几步正确、后续误差累积崩溃”问题,提出 tri-system 框架:策略生成器、执行器、在线 critic 形成闭环,实时抑制错误动作延续。

从机制上看,关键不是增加一个离线评分器,而是把 critic 放进推理回路:当候选动作在状态转移上显示高风险时,系统触发重评分或修正,从而减少不可恢复分支。

可抽象为:

其中 (\mathcal{R}_{critic}) 表示由 critic 估计的长期失败风险或不一致性惩罚。

对 Wanpeng 主线的意义:

  1. 直接命中 VLA 长程鲁棒性(不是只看短程 benchmark);
  2. 具备可迁移的方法模板(policy+critic 闭环可复用于多任务);
  3. 适合和世界模型/记忆模块组合,形成更强后训练路径。

建议精读时重点核验:

  • critic 触发频率与收益是否成正比(避免“频繁干预拖慢系统”);
  • 长时任务成功率提升是否伴随时延可控;
  • 失败案例是否真是“纠偏成功”而非数据偏置。

风险边界:如果 critic 与 policy 训练分布不同步,可能引入误拒绝(false reject)并压制探索。

Graph: Paper Node 2603.05185