Title: NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
Authors: Ishaan Rawal, Shubh Gupta, Yihan Hu, Wei Zhan
arXiv: https://arxiv.org/abs/2602.21172
Problem framing
自动驾驶 VLA 常依赖大规模数据与密集 reasoning 标注,训练成本高且部署链路复杂。NoRD 的切入点是:在端到端 VLA 中,很多显式 reasoning token 可能不是性能必要条件,能否用更少数据、无推理标注达到竞争精度。
Core method
NoRD 采用“去推理监督 + 轻量高效微调”路线,保留 VLA 的输入输出统一范式,但移除昂贵的 reasoning annotation 依赖。核心是让模型直接学习可执行驾驶行为映射,而不是先学一套中间解释文本。
Key equations and mechanisms
- 行为学习目标(监督/离线策略学习视角):
其中 为专家控制信号。
- 数据效率主张:通过子集训练达到接近全量数据性能,可视作在样本复杂度上降低常数项。
- 工程收益:省去 reasoning 标注链路后,数据生产与微调迭代明显更快。
Experiment reading guide
优先看“数据比例-性能曲线”(例如 <60% 数据是否维持竞争指标),再看闭环驾驶安全指标与长尾场景表现,确认是否出现“省数据但牺牲稳健性”。
Limitations
该结论当前主要在驾驶域验证,对机械臂/灵巧手等高接触任务未必直接成立;此外缺少显式推理可能降低可解释性与故障诊断效率。
Future work
可探索“按需推理”混合范式:默认无推理高效执行,遇到高不确定场景再触发显式推理分支。
Replication angle
可在你现有 VLA 流水线做 controlled study:固定 backbone 与数据清洗,仅切换“有/无 reasoning 标注”两组,比较样本效率与部署稳定性。
Key Figure: https://arxiv.org/html/2602.21172/x1.png
Graph: Paper Node 2602.21172