Date: 2026-03-09
Scope: A/B/C 深读(2603.06001, 2603.06480, 2603.05868)
一页结论(先决策)
- A (2603.06001 / IGAR):最值得先读、先验和机制都强,适合立刻做小规模复现。
- C (2603.05868 / AnyCamVLA):部署价值极高,建议与 A 串联做系统实验。
- B (2603.06480 / Token Pruning):效率方向有价值,但优先级略后,作为第二阶段 Pareto 优化。
建议阅读顺序:A → C → B
机制互补图(系统视角)
- A:修复语言条件失活(语义对齐)
- C:修复视觉域偏移(感知对齐)
- B:修复推理预算失衡(效率对齐)
组合路径:C (input remap) -> A (attention recalibration) -> B (history pruning)
Foundational lineage(基于今日 citation 子图)
- A/C 共享 VLA 主干:RT-1 / Octo / pi0 / Fine-tuning VLA / GR00T N1 / LIBERO-Plus(同一基础代际)。
- B 主要连向 VLN 效率链(VL-Nav, Unified VLA),与 A/C 弱耦合。
复现投入建议(资源分配)
- 本周可做:A(高)+ C(中高)联合验证。
- 下周可做:B 进入时延-成功率 Pareto 测试。
- 暂缓:单独重投入 B 的算法扩展(先确认真实系统瓶颈)。
最小实验矩阵(建议)
- A only / C only / A+C(2×2)
- 在 A+C 稳定后加 B:
(A+C) vs (A+C+B) - 指标统一:成功率、违令率、恢复率、端到端时延、控制频率