Title: FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation Authors: Edgar Welte, Yitian Shi, Rosa Wolf, Maximillian Gilles, et al. arXiv: https://arxiv.org/abs/2602.22056
Figure (HTML直链): https://arxiv.org/html/2602.22056v1/fig_arch_v4.png
Problem framing
生成式操作策略在部署时常因分布偏移出现“近成功但失败”(near-miss):轨迹接近正确却差最后一步。完全重训代价高,该文聚焦低成本把 near-miss 转为成功。
Core method
FlowCorrect 在推理时引入稀疏人类 nudges(轻量 VR 位姿修正),把修正信号注入 flow policy 的采样/引导过程,实现不重训或极小代价更新的在线纠偏。
Key equations and mechanisms
将原始策略流场 与人类修正项 组合: 并通过置信门控控制修正注入: 其中 表示不确定性/失败风险估计。机制本质:只在高风险阶段引入稀疏人类信息,避免全程人工接管。
Experiment reading guide
- 看 near-miss→success 转化率与人类干预次数。
- 看不同任务上的纠偏延迟与成功率提升。
- 看与“全量重训/纯自动纠偏”基线的成本-效果对比。
Limitations
- 依赖人类在线可用性与交互质量。
- 若初始策略偏差过大,稀疏 nudge 可能不足以纠正。
Future work
- 将人类纠偏蒸馏回策略,减少后续人工依赖。
- 与触觉/力反馈融合,覆盖接触密集失败模式。
Replication angle
- 从单任务 near-miss 数据集开始复现。
- 评估三指标:平均干预次数、成功率增益、单位任务时延。
- 对比不同 gating 阈值 的稳定性。
Graph: Paper Node 2602.22056