HALO A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning

Title: HALO: A Unified Vision-Language-Action Model for Embodied Multimodal Chain-of-Thought Reasoning
Authors: Quanxin Shou, Fangqi Zhu, Shawn Chen, Puxin Yan, Zhengyang Yan, Yikun Miao, Xiaoyi Pang, Zicong Hong, Ruikai Shi, Hao Huang, Jie Zhang, Song Guo
arXiv: https://arxiv.org/abs/2602.21157

Problem framing

现有 VLA 在长时程与分布外场景容易“会看不会想、会想不会做”：文本 CoT 与视觉/动作预测常是松耦合模块，导致计划与执行割裂。HALO 的目标是把文本推理、视觉前瞻、动作生成统一到一个可训练闭环。

Core method

HALO 构建统一多模态推理链：

语言链负责显式任务分解；
视觉链预测关键中间状态/子目标；
动作链在上述条件下输出可执行控制。
三链共享上下文并相互校验，形成“推理—预见—执行”一致性约束，减少长程漂移。

Key equations and mechanisms

联合建模目标：

L = λ_{t} L_{text} + λ_{v} L_{vision} + λ_{a} L_{action}

通过多任务权重平衡三条链路。

一致性约束：

L_{cons} = D (h_{t}^{text}, h_{t}^{vision}, h_{t}^{action})

约束各模态隐变量在同一步语义上对齐。

长时程信用分配：利用中间视觉前瞻作为稀疏监督桥梁，缓解仅靠最终成功信号造成的训练不稳定。

Experiment reading guide

先看长时程 manipulation 任务成功率及步骤完成率分解，再看 OOD 扰动场景下是否仍保持多模态一致性优势；重点比较“仅文本 CoT”与“统一 CoT”差距。

Limitations

统一框架训练成本高，且多链路误差可能耦合传播；若视觉前瞻偏差累积，会反向影响动作链稳定性。

Future work

可结合不确定性估计做链路动态裁剪：在易任务上关闭部分推理支路，难任务再激活完整三链，兼顾实时性与鲁棒性。

Replication angle

建议先做小规模任务集上的模块消融（去视觉前瞻/去一致性损失/去文本链），确认性能来源，再迁移到真实机械臂长程任务。

Key Figure: https://arxiv.org/html/2602.21157/x1.png

Graph: Paper Node 2602.21157