2026-03-09 A/B/C Storyline-First Synthesis

一句话主线（先讲故事，不先讲 citation）

这组 A/B/C 不是三篇并列论文，而是一条“让 VLA 真正在现实里可用”的三段式修复链：

换句话说： 先把输入拉回熟悉分布（C）→ 再把语言拉回决策主通路（A）→ 再把推理预算压到可部署区间（B）。

A/B/C 共同回答的并不是“怎样再涨一点 benchmark 分数”，而是同一个部署张力：

这三类失效分别击穿了系统的三个前提：

A 与 C 的共同信号：它们都尽量不动基座权重，而在推理时修复失效模式。

这把研究重心从“更大模型”转向“更可回滚的部署补丁”。

由 citation 子图可见，A 与 C 共享 anchor： RT-1 / Octo / pi0 / Fine-tuning VLA / GR00T N1 / LIBERO-Plus。

B 主要连接 VL-Nav / Unified VLA，更像导航效率链条，当前与 A/C 操控鲁棒主线弱耦合。

对 Wanpeng 当前目标（research assistant + 实机可用性）而言，最合理策略不是分别追求 A/B/C 的局部最优，而是优先验证组合链路： C -> A -> B。

当前可见 shared anchors：

这说明 A/C 的分歧不是“换代路线”，而是在同代通用 VLA 基座上，分别修补“语义失活”和“视觉域偏移”。

参考：

Opening tension (2-3 min)
- “为什么同一个 VLA，换个相机角度就不会干活；为什么明确说‘不要拿红杯子’也会拿？”
Act I: C—先修输入世界 (4-5 min)
- AnyCamVLA 的核心：把观测拉回训练域，而不是重训策略。
Act II: A—再修语言通道 (4-5 min)
- IGAR 的核心：train-free attention recalibration，把语言从背景噪声拉回控制变量。
Act III: B—最后修预算瓶颈 (3-4 min)
- 历史条件 token 裁剪如何在不明显掉成功率下换回实时性。
Synthesis: C→A→B 系统组合 (3 min)
- 不是三篇并列 paper club，而是一条部署链路。
Why now + What to read next (2 min)
- 指向 shared anchors 与下一阶段 bridge-mining。