Title: LiLo-VLA Compositional Long-Horizon Manipulation via Linked Object-Centric Policies Authors: Yue Yang et al. arXiv: https://arxiv.org/abs/2602.21531
arXiv 页面无稳定直链图片(HTML 侧未提供可长期复用的 figure URL);Telegram 卡片图改用本地提取关键图。
Problem framing
LiLo-VLA 解决的是“长时操作的组合爆炸”:将任务拆为对象中心局部策略并通过链接机制进行时序拼接,目标是把长链条失败率从乘法放大改造成可恢复的局部误差。
Core method
该方法围绕 Robotics/VLA 主线中的可扩展性与鲁棒性问题,采用“结构化中间表示 + 任务约束”的方案,而非纯参数堆叠。
Key equations and mechanisms
形式上把任务策略写成 其中 负责对象子任务,链接器更新 与切换条件。关键机制在于显式对象状态接口,提升跨步骤可组合性。
Experiment reading guide
- 先看主任务成功率与长时地平线性能曲线。
- 再看消融:去掉关键机制后的退化幅度。
- 最后看跨场景/跨形态泛化,判断是否对真实机器人部署有意义。
Limitations
- 真实系统 latency、感知噪声、接触不确定性可能弱化离线收益。
- 数据分布若与目标场景差异过大,机制优势可能被 domain gap 吞噬。
Future work
- 与在线校准/测试时自适应结合,形成闭环部署范式。
- 与更强物理先验(接触、动力学约束)联合训练。
Replication angle
- 优先复现作者公开 benchmark 上的最小闭环。
- 记录可复现实验的三个关键旋钮:训练数据粒度、动作块长度/控制频率、推理时纠偏触发阈值。
- 评估指标建议补充“失败恢复时间”和“单次任务能耗”。
Graph: Paper Node 2602.21531