Title: AnyCamVLA Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models
Authors: Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim
arXiv: https://arxiv.org/abs/2603.05868

Problem framing

这篇论文抓住了部署期最常见失效:相机位姿/内参轻微变化导致策略崩溃。VLA 在训练域内表现好,但一旦 camera extrinsic/intrinsic 变化,动作分布迅速漂移。

Mechanism(怎么起作用)

AnyCamVLA 把 domain adaptation 前移到输入层:

其中 代表相机参数, 做视角重映射/新视角合成,将当前观测映射回训练相机域,再输入原 VLA。核心不是“让策略更聪明”,而是“让输入回到策略熟悉分布”。

这是一种典型 test-time adapter

  • 不新增示教
  • 不重训策略
  • 可快速集成/回滚

Foundational lineage(从哪里来)

在今日 A/B/C 子图里,C 与 A 共享同一 VLA 主干家族:

  • 2212.06817 RT-1
  • 2405.12213 Octo
  • 2410.24164 pi0
  • 2502.19645 Fine-tuning VLA
  • 2503.14734 GR00T N1
  • 2510.13626 LIBERO-Plus

链接:C Citation Subgraph

因此 C 和 A 可以视作同一系统不同失效模态的补丁:C 修复“视觉域偏移”,A 修复“语言条件失活”。

为什么值得读

  1. 部署价值直接:相机变化是实机高频痛点。
  2. 接口友好:对任意 RGB-based VLA 可挂接。
  3. 与现有路线互补:可与语言对齐补丁、效率补丁并行组合。

该不该投入复现

结论:值得,优先级中高(A-)。

建议投入“工程验证型复现”,不是长周期算法研究型复现。

投入理由

  • 可快速回答“我们当前 VLA 的真实 camera fragility 到底有多严重”。
  • 复现结果能直接指导硬件安装容差与标定流程。

风险点

  • 依赖 novel view synthesis 质量,动态遮挡和重反射可能引入伪影。
  • 若时延过大,会吞掉控制频率收益。

下一步实验建议(可执行)

  1. 外参扰动鲁棒曲线
    • 指标:成功率 vs 平移/旋转偏移量。
  2. 移动相机时延预算
    • 指标:NVS 耗时、控制频率、闭环稳定性。
  3. 跨任务泛化
    • 抓取/放置/抽屉操作分别测试,避免只在单任务有效。
  4. 与 A 串联
    • AnyCam -> IGAR 对照 AnyCam only / IGAR only

Replication angle(最小复现包)

  • 先离线 replay 做视角映射质量与动作一致性检查。
  • 通过后上真机短回路任务(低风险抓放)评估实时性。

Research action for Wanpeng

  • 把 C 放在“实机可用性闸门”位置:先测时延与稳定性,再决定是否作为默认部署模块。
  • 若资源有限,优先完成 A+C 组合的 2×2 对照,拿到第一版系统级结论。