FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

Title: FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation Authors: Edgar Welte, Yitian Shi, Rosa Wolf, Maximillian Gilles, et al. arXiv: https://arxiv.org/abs/2602.22056

Figure (HTML直链): https://arxiv.org/html/2602.22056v1/fig_arch_v4.png

Problem framing

生成式操作策略在部署时常因分布偏移出现“近成功但失败”（near-miss）：轨迹接近正确却差最后一步。完全重训代价高，该文聚焦低成本把 near-miss 转为成功。

Core method

FlowCorrect 在推理时引入稀疏人类 nudges（轻量 VR 位姿修正），把修正信号注入 flow policy 的采样/引导过程，实现不重训或极小代价更新的在线纠偏。

Key equations and mechanisms

将原始策略流场 $v_{θ} (x_{t}, t)$ 与人类修正项 $u_{t}$ 组合： $\overset{x}{˙}_{t} = v_{θ} (x_{t}, t) + α_{t} u_{t}$ 并通过置信门控控制修正注入： $α_{t} = 1 [U (x_{t}) > τ] \cdot g_{t}$ 其中 $U$ 表示不确定性/失败风险估计。机制本质：只在高风险阶段引入稀疏人类信息，避免全程人工接管。

Experiment reading guide

看 near-miss→success 转化率与人类干预次数。
看不同任务上的纠偏延迟与成功率提升。
看与“全量重训/纯自动纠偏”基线的成本-效果对比。

Limitations

依赖人类在线可用性与交互质量。
若初始策略偏差过大，稀疏 nudge 可能不足以纠正。

Future work

将人类纠偏蒸馏回策略，减少后续人工依赖。
与触觉/力反馈融合，覆盖接触密集失败模式。

Replication angle

从单任务 near-miss 数据集开始复现。
评估三指标：平均干预次数、成功率增益、单位任务时延。
对比不同 gating 阈值 $τ$ 的稳定性。

Graph: Paper Node 2602.22056