Title: SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly
Authors: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier, Hugo Hadfield, Abhishek Gupta, Yashraj Narang
arXiv: https://arxiv.org/abs/2602.23253
Problem framing
接触丰富装配任务里,纯仿真策略常被 sim2real gap 击穿,纯真机 RL 又成本高、监督重、迁移性差。SPARR 的关键问题定义是:能否把“仿真中可扩展学习”与“真机中小样本纠偏”拆成非对称分工,并保持闭环稳定。
Core method
核心是 asymmetric residual:
- 主策略在仿真中学习可泛化装配行为;
- 真机只学习小残差头,专门补偿接触模型误差、摩擦偏差、执行器滞后。
这等价于把策略分解为:
其中 提供主导动作先验, 仅负责“局部校正”。
Key equations and mechanisms
机制上对应偏差-方差折中:
- 大部分控制自由度由仿真先验约束,降低真机探索维度;
- 残差学习聚焦高敏感接触阶段,减少不必要更新。
可理解为在参数空间上做低秩适配:
从而把真机数据预算集中到“最影响成功率”的误差子空间。
Experiment reading guide
优先看:
- 多类装配任务(插接/对孔/卡扣)的成功率提升幅度;
- 真机采样量 vs. 成功率曲线(是否明显左移);
- 对摩擦系数、几何偏差、视觉噪声的鲁棒性消融。
Limitations
- 仍依赖可用的高保真仿真先验;
- 若主策略结构错误(而非参数偏差),残差难以完全修复;
- 在极端接触不连续场景中,残差稳定性可能受限。
Future work
- 把残差学习做成阶段触发(接触瞬间高频、自由空间低频);
- 引入不确定性估计,决定何时信任主策略或放大残差;
- 与触觉表征联合训练,提升误差可观测性。
Replication angle
可复现实验建议:固定仿真预训练权重,仅比较三种真机后训练(full finetune / residual-only / LoRA-like)在同等样本预算下的成功率与力峰值分布。这样可直接验证“非对称残差”是否是主要增益来源。
图链接(可直链渲染):
Graph: Paper Node 2602.23253