CapNav Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

Title: CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
Authors: Xia Su, Ruiqi Chen, Benlin Liu, Jingwei Ma, Zonglin Di, Ranjay Krishna, Jon Froehlich
arXiv: https://arxiv.org/abs/2602.18424

Problem framing

现有 VLN/VLM 导航评测默认“机器人能力相同”，但真实机器人能力差异极大（能否上楼、跨越障碍、通过狭缝）会直接改变最优路径与指令可执行性。CapNav 把“能力约束”从隐变量变成显式条件，评测模型是否真的在做具身可执行决策。

Core method

论文提出 Capability-Conditioned Navigation 基准：

在室内导航任务中显式注入 agent capability profile（如移动形态、可跨越高度、通过宽度）
构造同一语义目标下、因能力不同而应选择不同路径的对比样本
评估 VLM 在“语义理解 + 可执行约束一致性”上的联合表现，而非仅看到达率

Key equations and mechanisms

本工作核心是条件决策分布：

π (a_{t} ∣ o_{\leq t}, x, c)

其中 $c$ 表示能力条件。若忽略 $c$ ，模型会退化为“语言/视觉对齐正确但动作不可执行”的伪成功策略。评测重点是 capability-consistency 而非单纯语义匹配。

Experiment reading guide

优先看：

不同能力配置下同一任务的性能分化（是否真学到条件化）
错误类型分解：语义错、几何错、能力约束违背
强基座 VLM 是否仍在 capability-sensitive case 明显掉点

Limitations

当前仍是 benchmark 导向，尚未直接给出训练时如何最优注入 capability token/adapter 的统一方案；对真实机器人噪声与执行延迟的覆盖有限。

Future work

可把能力条件与世界模型联合，学习 $c$ 的不确定性传播（例如能力边界随地形变化），并将其纳入规划风险函数。

Replication angle

你这边做人形/移动操作结合时，可直接借鉴“能力画像驱动任务筛选”：先按平台 capability profile 过滤不可执行样本，再做 VLA 微调，能减少无效 trial。

Figure

Graph: Paper Node 2602.18424