NoRD A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Title: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
Authors: Ishaan Rawal, Shubh Gupta, Yihan Hu, Wei Zhan
arXiv: https://arxiv.org/abs/2602.21172

Problem framing

自动驾驶 VLA 常依赖大规模数据与密集 reasoning 标注，训练成本高且部署链路复杂。NoRD 的切入点是：在端到端 VLA 中，很多显式 reasoning token 可能不是性能必要条件，能否用更少数据、无推理标注达到竞争精度。

Core method

NoRD 采用“去推理监督 + 轻量高效微调”路线，保留 VLA 的输入输出统一范式，但移除昂贵的 reasoning annotation 依赖。核心是让模型直接学习可执行驾驶行为映射，而不是先学一套中间解释文本。

Key equations and mechanisms

行为学习目标（监督/离线策略学习视角）：

L_{act} = - E_{(o_{t}, u_{t}^{*}) \sim D} lo g π_{θ} (u_{t}^{*} ∣ o_{t}, ℓ)

其中 $u_{t}^{*}$ 为专家控制信号。

数据效率主张：通过子集训练达到接近全量数据性能，可视作在样本复杂度上降低常数项。
工程收益：省去 reasoning 标注链路后，数据生产与微调迭代明显更快。

Experiment reading guide

优先看“数据比例-性能曲线”（例如 <60% 数据是否维持竞争指标），再看闭环驾驶安全指标与长尾场景表现，确认是否出现“省数据但牺牲稳健性”。

Limitations

该结论当前主要在驾驶域验证，对机械臂/灵巧手等高接触任务未必直接成立；此外缺少显式推理可能降低可解释性与故障诊断效率。

Future work

可探索“按需推理”混合范式：默认无推理高效执行，遇到高不确定场景再触发显式推理分支。

Replication angle

可在你现有 VLA 流水线做 controlled study：固定 backbone 与数据清洗，仅切换“有/无 reasoning 标注”两组，比较样本效率与部署稳定性。

Key Figure: https://arxiv.org/html/2602.21172/x1.png

Graph: Paper Node 2602.21172