Critic in the Loop A Tri-System VLA Framework for Robust Long-Horizon Manipulation

Title: Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation
Authors: Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong
arXiv: https://arxiv.org/abs/2603.05185

论文针对长时程操作里 VLA 常见的“前几步正确、后续误差累积崩溃”问题，提出 tri-system 框架：策略生成器、执行器、在线 critic 形成闭环，实时抑制错误动作延续。

从机制上看，关键不是增加一个离线评分器，而是把 critic 放进推理回路：当候选动作在状态转移上显示高风险时，系统触发重评分或修正，从而减少不可恢复分支。

可抽象为：

a_{t} = ar g a \in A max (Q_{p o l i cy} (s_{t}, a) - λ R_{cr i t i c} (s_{t}, a)),

其中 (\mathcal{R}_{critic}) 表示由 critic 估计的长期失败风险或不一致性惩罚。

对 Wanpeng 主线的意义：

直接命中 VLA 长程鲁棒性（不是只看短程 benchmark）；
具备可迁移的方法模板（policy+critic 闭环可复用于多任务）；
适合和世界模型/记忆模块组合，形成更强后训练路径。

建议精读时重点核验：

critic 触发频率与收益是否成正比（避免“频繁干预拖慢系统”）；
长时任务成功率提升是否伴随时延可控；
失败案例是否真是“纠偏成功”而非数据偏置。

风险边界：如果 critic 与 policy 训练分布不同步，可能引入误拒绝（false reject）并压制探索。

Graph: Paper Node 2603.05185