Title: SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly
Authors: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier, Hugo Hadfield, Abhishek Gupta, Yashraj Narang
arXiv: https://arxiv.org/abs/2602.23253

Problem framing

接触丰富装配任务里,纯仿真策略常被 sim2real gap 击穿,纯真机 RL 又成本高、监督重、迁移性差。SPARR 的关键问题定义是:能否把“仿真中可扩展学习”与“真机中小样本纠偏”拆成非对称分工,并保持闭环稳定。

Core method

核心是 asymmetric residual

  • 主策略在仿真中学习可泛化装配行为;
  • 真机只学习小残差头,专门补偿接触模型误差、摩擦偏差、执行器滞后。

这等价于把策略分解为:

其中 提供主导动作先验, 仅负责“局部校正”。

Key equations and mechanisms

机制上对应偏差-方差折中:

  • 大部分控制自由度由仿真先验约束,降低真机探索维度;
  • 残差学习聚焦高敏感接触阶段,减少不必要更新。

可理解为在参数空间上做低秩适配:

从而把真机数据预算集中到“最影响成功率”的误差子空间。

Experiment reading guide

优先看:

  1. 多类装配任务(插接/对孔/卡扣)的成功率提升幅度;
  2. 真机采样量 vs. 成功率曲线(是否明显左移);
  3. 对摩擦系数、几何偏差、视觉噪声的鲁棒性消融。

Limitations

  • 仍依赖可用的高保真仿真先验;
  • 若主策略结构错误(而非参数偏差),残差难以完全修复;
  • 在极端接触不连续场景中,残差稳定性可能受限。

Future work

  • 把残差学习做成阶段触发(接触瞬间高频、自由空间低频);
  • 引入不确定性估计,决定何时信任主策略或放大残差;
  • 与触觉表征联合训练,提升误差可观测性。

Replication angle

可复现实验建议:固定仿真预训练权重,仅比较三种真机后训练(full finetune / residual-only / LoRA-like)在同等样本预算下的成功率与力峰值分布。这样可直接验证“非对称残差”是否是主要增益来源。

图链接(可直链渲染):

Graph: Paper Node 2602.23253