Title: Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
Authors: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
arXiv: https://arxiv.org/abs/2602.16705
Problem framing
开放词汇人形 loco-manipulation 需同时满足视觉泛化和末端高精度控制,单纯 imitation 数据驱动难两者兼得。
Core method
HERO:residual-aware EE tracking + IK + 学习型前向模型 + goal adjustment/replanning 的混合式闭环。
Key equations and mechanisms
再通过 IK 与重规划转为关节控制,报告 EE 误差约 3.2x 下降。
Experiment reading guide
看模块化消融(IK/forward model/replanning)和真实场景跨地点泛化。
Limitations
系统工程复杂;复杂动态接触任务能力尚需更多证据。
Future work
与全身动力学约束、触觉反馈和任务级规划进一步融合。
Replication angle
先独立复现 EE tracking 子系统,再接开放词汇感知模块。
arXiv 页面无稳定直链图片。
Graph: Paper Node 2602.16705