Title: FlowHOI Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation
Authors: Huajian Zeng, Lingyun Chen, Jiaqi Yang, Yuantai Zhang, Fan Shi, Peidong Liu, Xingxing Zuo
arXiv: https://arxiv.org/abs/2602.13444
Problem framing
现有 VLA 在长程接触任务里容易“动作像对了、接触结构错了”。根因是 hand-object interaction (HOI) 没被显式建模,导致策略难以验证、也难跨本体迁移。
Core method
FlowHOI 用两阶段 flow-matching 生成语义对齐、时序一致的 HOI 序列(手位姿+物体位姿+接触状态):
- 几何导向抓取阶段;
- 语义导向操作阶段(结合语言与 3DGS 场景 token)。 并通过 motion-text alignment loss 强化语义-物理一致性。
Key equations and mechanisms
核心是“显式 HOI 中间层”替代端到端黑箱动作:
其中 将本体无关 HOI 轨迹重定向到具体机器人,实现可迁移与可验证执行。
Experiment reading guide
重点看:
- 在 GRAB/HOT3D 上 action recognition 与 physics success 的同步提升;
- 相对扩散基线 40 推理加速是否伴随质量劣化;
- 4 个真实灵巧操作任务中失败类型(接触错位/时序错位/语义偏差)。
Limitations
- 依赖高质量 HOI 重建数据与 3D 场景表示;
- 复杂遮挡或多物体密集接触下,HOI 状态估计误差可能放大。
Future work
可把接触不确定性(置信区间)显式并入生成与重定向,形成风险感知 HOI 规划。
Replication angle
复现优先保证 HOI 表示定义稳定(坐标系/接触标签一致),再对齐 flow 采样步数与实时控制频率。
Figure links
Graph: Paper Node 2602.13444