SPARR Simulation-based Policies with Asymmetric Real-world Residuals for Assembly

Title: SPARR: Simulation-based Policies with Asymmetric Real-world Residuals for Assembly
Authors: Yijie Guo, Iretiayo Akinola, Lars Johannsmeier, Hugo Hadfield, Abhishek Gupta, Yashraj Narang
arXiv: https://arxiv.org/abs/2602.23253

Problem framing

接触丰富装配任务里，纯仿真策略常被 sim2real gap 击穿，纯真机 RL 又成本高、监督重、迁移性差。SPARR 的关键问题定义是：能否把“仿真中可扩展学习”与“真机中小样本纠偏”拆成非对称分工，并保持闭环稳定。

Core method

核心是 asymmetric residual：

主策略在仿真中学习可泛化装配行为；
真机只学习小残差头，专门补偿接触模型误差、摩擦偏差、执行器滞后。

这等价于把策略分解为：

π (a ∣ s) = π_{s im} (a ∣ s) + Δ π_{re a l} (a ∣ s)

其中 $π_{s im}$ 提供主导动作先验， $Δ π_{re a l}$ 仅负责“局部校正”。

Key equations and mechanisms

机制上对应偏差-方差折中：

大部分控制自由度由仿真先验约束，降低真机探索维度；
残差学习聚焦高敏感接触阶段，减少不必要更新。

可理解为在参数空间上做低秩适配：

θ = θ_{s im} + δ θ_{re a l}, ∥ δ θ_{re a l} ∥ ≪ ∥ θ_{s im} ∥

从而把真机数据预算集中到“最影响成功率”的误差子空间。

Experiment reading guide

优先看：

多类装配任务（插接/对孔/卡扣）的成功率提升幅度；
真机采样量 vs. 成功率曲线（是否明显左移）；
对摩擦系数、几何偏差、视觉噪声的鲁棒性消融。

Limitations

仍依赖可用的高保真仿真先验；
若主策略结构错误（而非参数偏差），残差难以完全修复；
在极端接触不连续场景中，残差稳定性可能受限。

Future work

把残差学习做成阶段触发（接触瞬间高频、自由空间低频）；
引入不确定性估计，决定何时信任主策略或放大残差；
与触觉表征联合训练，提升误差可观测性。

Replication angle

可复现实验建议：固定仿真预训练权重，仅比较三种真机后训练（full finetune / residual-only / LoRA-like）在同等样本预算下的成功率与力峰值分布。这样可直接验证“非对称残差”是否是主要增益来源。

图链接（可直链渲染）：

Graph: Paper Node 2602.23253