2026-03-09 A/B/C Storyline-First Synthesis

一句话主线(先讲故事,不先讲 citation)

这组 A/B/C 不是三篇并列论文,而是一条“让 VLA 真正在现实里可用”的三段式修复链:

  • C (AnyCamVLA) 先解决“我看得是不是训练时那个世界”(观测域对齐);
  • A (IGAR) 再解决“我是否真的听懂语言条件”(语义条件对齐);
  • B (History-conditioned pruning) 最后解决“我能否在实时预算里持续做对”(效率预算对齐)。

换句话说: 先把输入拉回熟悉分布(C)→ 再把语言拉回决策主通路(A)→ 再把推理预算压到可部署区间(B)。


Opening Tension:为什么“高分 VLA”在实机上还是会崩

A/B/C 共同回答的并不是“怎样再涨一点 benchmark 分数”,而是同一个部署张力:

  1. Camera shift:相机位姿轻微变化就失效(C);
  2. Language blindness:视觉捷径盖过语言条件(A);
  3. Token explosion:长时程推理让时延吞掉闭环(B)。

这三类失效分别击穿了系统的三个前提:

  • 输入分布假设(C)
  • 条件控制假设(A)
  • 计算预算假设(B)

三个 Turning Points(故事转折点)

Turning Point 1 — “不是重训,而是 test-time patch”

A 与 C 的共同信号:它们都尽量不动基座权重,而在推理时修复失效模式。

  • C:输入侧重映射(把观测拉回训练域)
  • A:注意力重标定(把语言条件拉回主通路)

这把研究重心从“更大模型”转向“更可回滚的部署补丁”。

Turning Point 2 — “A/C 属于同一主干家族,B 是效率支线”

由 citation 子图可见,A 与 C 共享 anchor: RT-1 / Octo / pi0 / Fine-tuning VLA / GR00T N1 / LIBERO-Plus

B 主要连接 VL-Nav / Unified VLA,更像导航效率链条,当前与 A/C 操控鲁棒主线弱耦合。

Turning Point 3 — “系统化组合优先于单点最优”

对 Wanpeng 当前目标(research assistant + 实机可用性)而言,最合理策略不是分别追求 A/B/C 的局部最优,而是优先验证组合链路: C -> A -> B


Shared Anchors(共享学术底座)

当前可见 shared anchors:

  • 2212.06817 (RT-1)
  • 2405.12213 (Octo)
  • 2410.24164 (pi0)
  • 2502.19645 (Fine-tuning VLA)
  • 2503.14734 (GR00T N1)
  • 2510.13626 (LIBERO-Plus)

这说明 A/C 的分歧不是“换代路线”,而是在同代通用 VLA 基座上,分别修补“语义失活”和“视觉域偏移”。

参考:


Why Now(为什么是现在)

  1. 从“能演示”到“能部署”:模型能力到位后,失败主要来自分布偏移和预算约束,不再是纯建模问题。
  2. test-time 方法成熟:A/C/B 都体现“少改动、快接入、可回滚”,契合真实系统迭代节奏。
  3. 研究-工程闭环窗口期:现在做 A+C 基线最容易拿到高价值负反馈(语言失活 vs 相机失配谁是主瓶颈),从而决定 B 的投入强度。

What To Read Next(下一步阅读路径,按故事推进)

  1. 先读 A(机制)
  2. 再读 C(部署)
  3. 后读 B(效率)
  4. 回看总览

建议 Podcast 结构(可直接用于录制脚本)

  1. Opening tension (2-3 min)
    • “为什么同一个 VLA,换个相机角度就不会干活;为什么明确说‘不要拿红杯子’也会拿?”
  2. Act I: C—先修输入世界 (4-5 min)
    • AnyCamVLA 的核心:把观测拉回训练域,而不是重训策略。
  3. Act II: A—再修语言通道 (4-5 min)
    • IGAR 的核心:train-free attention recalibration,把语言从背景噪声拉回控制变量。
  4. Act III: B—最后修预算瓶颈 (3-4 min)
    • 历史条件 token 裁剪如何在不明显掉成功率下换回实时性。
  5. Synthesis: C→A→B 系统组合 (3 min)
    • 不是三篇并列 paper club,而是一条部署链路。
  6. Why now + What to read next (2 min)
    • 指向 shared anchors 与下一阶段 bridge-mining。

对 Wanpeng 的可执行落点

  • 研究优先级:A > C > B(单篇)A+C > A/B/C 各自最优(系统)
  • 实验优先级:先拿 A/C/A+C 三组结论,再决定 B 是否进入主干。
  • 图谱优先级:继续挖“跨 2602/2603 月份共引”的 bridge nodes,形成更长 archaeology reading chain。