FlowHOI Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation

Title: FlowHOI Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation
Authors: Huajian Zeng, Lingyun Chen, Jiaqi Yang, Yuantai Zhang, Fan Shi, Peidong Liu, Xingxing Zuo
arXiv: https://arxiv.org/abs/2602.13444

Problem framing

现有 VLA 在长程接触任务里容易“动作像对了、接触结构错了”。根因是 hand-object interaction (HOI) 没被显式建模，导致策略难以验证、也难跨本体迁移。

Core method

FlowHOI 用两阶段 flow-matching 生成语义对齐、时序一致的 HOI 序列（手位姿+物体位姿+接触状态）：

几何导向抓取阶段；
语义导向操作阶段（结合语言与 3DGS 场景 token）。并通过 motion-text alignment loss 强化语义-物理一致性。

Key equations and mechanisms

核心是“显式 HOI 中间层”替代端到端黑箱动作：

z_{1 : T}^{HOI} \sim p_{θ} (z ∣ o_{e g o}, x_{3 D GS}, l), u_{1 : T} = R (z_{1 : T}^{HOI}, robot)

其中 $R$ 将本体无关 HOI 轨迹重定向到具体机器人，实现可迁移与可验证执行。

Experiment reading guide

重点看：

在 GRAB/HOT3D 上 action recognition 与 physics success 的同步提升；
相对扩散基线 40 $\times$ 推理加速是否伴随质量劣化；
4 个真实灵巧操作任务中失败类型（接触错位/时序错位/语义偏差）。

Limitations

依赖高质量 HOI 重建数据与 3D 场景表示；
复杂遮挡或多物体密集接触下，HOI 状态估计误差可能放大。

Future work

可把接触不确定性（置信区间）显式并入生成与重定向，形成风险感知 HOI 规划。

Replication angle

复现优先保证 HOI 表示定义稳定（坐标系/接触标签一致），再对齐 flow 采样步数与实时控制频率。

Figure links

Graph: Paper Node 2602.13444