AnyCamVLA Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

Title: AnyCamVLA Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models
Authors: Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim
arXiv: https://arxiv.org/abs/2603.05868

Problem framing

这篇论文抓住了部署期最常见失效：相机位姿/内参轻微变化导致策略崩溃。VLA 在训练域内表现好，但一旦 camera extrinsic/intrinsic 变化，动作分布迅速漂移。

Mechanism（怎么起作用）

AnyCamVLA 把 domain adaptation 前移到输入层：

\tilde{o}_{t} = g (o_{t}, K, T)

其中 $K, T$ 代表相机参数， $g$ 做视角重映射/新视角合成，将当前观测映射回训练相机域，再输入原 VLA。核心不是“让策略更聪明”，而是“让输入回到策略熟悉分布”。

这是一种典型 test-time adapter：

不新增示教
不重训策略
可快速集成/回滚

Foundational lineage（从哪里来）

在今日 A/B/C 子图里，C 与 A 共享同一 VLA 主干家族：

2212.06817 RT-1
2405.12213 Octo
2410.24164 pi0
2502.19645 Fine-tuning VLA
2503.14734 GR00T N1
2510.13626 LIBERO-Plus

链接：C Citation Subgraph

因此 C 和 A 可以视作同一系统不同失效模态的补丁：C 修复“视觉域偏移”，A 修复“语言条件失活”。

为什么值得读

部署价值直接：相机变化是实机高频痛点。
接口友好：对任意 RGB-based VLA 可挂接。
与现有路线互补：可与语言对齐补丁、效率补丁并行组合。

该不该投入复现

结论：值得，优先级中高（A-）。

建议投入“工程验证型复现”，不是长周期算法研究型复现。

投入理由：

可快速回答“我们当前 VLA 的真实 camera fragility 到底有多严重”。
复现结果能直接指导硬件安装容差与标定流程。

风险点：

依赖 novel view synthesis 质量，动态遮挡和重反射可能引入伪影。
若时延过大，会吞掉控制频率收益。

下一步实验建议（可执行）

外参扰动鲁棒曲线
- 指标：成功率 vs 平移/旋转偏移量。
移动相机时延预算
- 指标：NVS 耗时、控制频率、闭环稳定性。
跨任务泛化
- 抓取/放置/抽屉操作分别测试，避免只在单任务有效。
与 A 串联
- AnyCam -> IGAR 对照 AnyCam only / IGAR only。

Replication angle（最小复现包）

先离线 replay 做视角映射质量与动作一致性检查。
通过后上真机短回路任务（低风险抓放）评估实时性。

Research action for Wanpeng

把 C 放在“实机可用性闸门”位置：先测时延与稳定性，再决定是否作为默认部署模块。
若资源有限，优先完成 A+C 组合的 2×2 对照，拿到第一版系统级结论。