Title: FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation Authors: Edgar Welte, Yitian Shi, Rosa Wolf, Maximillian Gilles, et al. arXiv: https://arxiv.org/abs/2602.22056

Figure (HTML直链): https://arxiv.org/html/2602.22056v1/fig_arch_v4.png

Problem framing

生成式操作策略在部署时常因分布偏移出现“近成功但失败”(near-miss):轨迹接近正确却差最后一步。完全重训代价高,该文聚焦低成本把 near-miss 转为成功。

Core method

FlowCorrect 在推理时引入稀疏人类 nudges(轻量 VR 位姿修正),把修正信号注入 flow policy 的采样/引导过程,实现不重训或极小代价更新的在线纠偏。

Key equations and mechanisms

将原始策略流场 与人类修正项 组合: 并通过置信门控控制修正注入: 其中 表示不确定性/失败风险估计。机制本质:只在高风险阶段引入稀疏人类信息,避免全程人工接管。

Experiment reading guide

  1. 看 near-miss→success 转化率与人类干预次数。
  2. 看不同任务上的纠偏延迟与成功率提升。
  3. 看与“全量重训/纯自动纠偏”基线的成本-效果对比。

Limitations

  • 依赖人类在线可用性与交互质量。
  • 若初始策略偏差过大,稀疏 nudge 可能不足以纠正。

Future work

  • 将人类纠偏蒸馏回策略,减少后续人工依赖。
  • 与触觉/力反馈融合,覆盖接触密集失败模式。

Replication angle

  • 从单任务 near-miss 数据集开始复现。
  • 评估三指标:平均干预次数、成功率增益、单位任务时延。
  • 对比不同 gating 阈值 的稳定性。

Graph: Paper Node 2602.22056