Title: HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning
Authors: Quanxin Shou, Fangqi Zhu, Shawn Chen, Puxin Yan, Zhengyang Yan, Yikun Miao, Xiaoyi Pang, Zicong Hong, Ruikai Shi, Hao Huang, Jie Zhang, Song Guo
arXiv: https://arxiv.org/abs/2602.21157

Problem framing

现有 VLA 在长时程与分布外场景容易“会看不会想、会想不会做”:文本 CoT 与视觉/动作预测常是松耦合模块,导致计划与执行割裂。HALO 的目标是把文本推理、视觉前瞻、动作生成统一到一个可训练闭环。

Core method

HALO 构建统一多模态推理链:

  • 语言链负责显式任务分解;
  • 视觉链预测关键中间状态/子目标;
  • 动作链在上述条件下输出可执行控制。
    三链共享上下文并相互校验,形成“推理—预见—执行”一致性约束,减少长程漂移。

Key equations and mechanisms

  • 联合建模目标

通过多任务权重平衡三条链路。

  • 一致性约束

约束各模态隐变量在同一步语义上对齐。

  • 长时程信用分配:利用中间视觉前瞻作为稀疏监督桥梁,缓解仅靠最终成功信号造成的训练不稳定。

Experiment reading guide

先看长时程 manipulation 任务成功率及步骤完成率分解,再看 OOD 扰动场景下是否仍保持多模态一致性优势;重点比较“仅文本 CoT”与“统一 CoT”差距。

Limitations

统一框架训练成本高,且多链路误差可能耦合传播;若视觉前瞻偏差累积,会反向影响动作链稳定性。

Future work

可结合不确定性估计做链路动态裁剪:在易任务上关闭部分推理支路,难任务再激活完整三链,兼顾实时性与鲁棒性。

Replication angle

建议先做小规模任务集上的模块消融(去视觉前瞻/去一致性损失/去文本链),确认性能来源,再迁移到真实机械臂长程任务。

Key Figure: https://arxiv.org/html/2602.21157/x1.png

Graph: Paper Node 2602.21157