Title: The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption
Authors: Timothy Duggan, Pierrick Lorang, Hong Lu, Matthias Scheutz
arXiv: https://arxiv.org/abs/2602.19260

Problem framing

这篇工作把“VLA 是否值得用于结构化长时程操作”转成可量化问题:不仅比成功率,还比训练/推理能耗。任务选用结构强、序列依赖明显的 Towers of Hanoi,专门放大规划能力与样本效率差异。

Core method

对比两路:

  • VLA 路线:微调 (含端到端与 planner-guided 变体);
  • Neuro-symbolic 路线:PDDL 高层规划 + 学习型低层控制。

统一输入模态、统一演示来源,减少“数据配方差异”干扰,把差异集中到架构范式。

Key equations and mechanisms

形式化优化目标可写成:

其中论文核心发现是 neuro-symbolic 在 上明显占优,主要来自成功率提升与能耗下降的双重贡献。

机制上:

  • 高层符号约束减少无效探索;
  • 低层策略只学局部执行子问题;
  • 模块化带来更可解释调试路径。

Experiment reading guide

重点先看:

  1. 3-block 与 4-block 的成功率断层;
  2. planner-guided VLA 与 end-to-end VLA 差距(判断“执行 vs 规划”瓶颈);
  3. 训练能耗数量级差异(是否接近两个数量级)。

Limitations

  • 任务域偏结构化,未覆盖开放环境语义泛化。
  • VLA 仅测特定开源基线,不能代表全部 foundation policy。
  • 能耗测量依赖硬件/框架实现细节,横向可比性有限。

Future work

  • 在半结构化家居长时程任务中做同类能效-性能评测;
  • 探索“符号骨架 + VLA 执行器”的折中架构;
  • 建立统一机器人模型训练碳核算协议。

Replication angle

可先在仿真复现 3-block/4-block 任务与统一数据流水线,再逐步替换控制器。建议同时记录 wall-clock、GPU util 与功耗曲线,避免仅报告最终 kWh。

Key Figure: https://arxiv.org/html/2602.19260/figures/overview_vertical.png
Alt Figure: https://arxiv.org/html/2602.19260/figures/agent_and_wrist_images.png

Graph: Paper Node 2602.19260