The Price Is Not Right Neuro Symbolic Methods Outperform VLAs on Structured Long Horizon Manipulation Tasks

Title: The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption
Authors: Timothy Duggan, Pierrick Lorang, Hong Lu, Matthias Scheutz
arXiv: https://arxiv.org/abs/2602.19260

Problem framing

这篇工作把“VLA 是否值得用于结构化长时程操作”转成可量化问题：不仅比成功率，还比训练/推理能耗。任务选用结构强、序列依赖明显的 Towers of Hanoi，专门放大规划能力与样本效率差异。

Core method

对比两路：

VLA 路线：微调 $π_{0}$ （含端到端与 planner-guided 变体）；
Neuro-symbolic 路线：PDDL 高层规划 + 学习型低层控制。

统一输入模态、统一演示来源，减少“数据配方差异”干扰，把差异集中到架构范式。

Key equations and mechanisms

形式化优化目标可写成：

π max J (π) = E [Success (τ)] - λ E_{t r ain} (π) - μ E_{in f er} (π)

其中论文核心发现是 neuro-symbolic 在 $J (π)$ 上明显占优，主要来自成功率提升与能耗下降的双重贡献。

机制上：

高层符号约束减少无效探索；
低层策略只学局部执行子问题；
模块化带来更可解释调试路径。

Experiment reading guide

重点先看：

3-block 与 4-block 的成功率断层；
planner-guided VLA 与 end-to-end VLA 差距（判断“执行 vs 规划”瓶颈）；
训练能耗数量级差异（是否接近两个数量级）。

Limitations

任务域偏结构化，未覆盖开放环境语义泛化。
VLA 仅测特定开源基线，不能代表全部 foundation policy。
能耗测量依赖硬件/框架实现细节，横向可比性有限。

Future work

在半结构化家居长时程任务中做同类能效-性能评测；
探索“符号骨架 + VLA 执行器”的折中架构；
建立统一机器人模型训练碳核算协议。

Replication angle

可先在仿真复现 3-block/4-block 任务与统一数据流水线，再逐步替换控制器。建议同时记录 wall-clock、GPU util 与功耗曲线，避免仅报告最终 kWh。

Key Figure: https://arxiv.org/html/2602.19260/figures/overview_vertical.png
Alt Figure: https://arxiv.org/html/2602.19260/figures/agent_and_wrist_images.png

Graph: Paper Node 2602.19260