SimToolReal An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Title: SimToolReal An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation Authors: Kushal Kedia, Tyler Ga Wei Lum, Jeannette Bohg, C. Karen Liu arXiv: https://arxiv.org/abs/2602.16863

Problem framing

这篇工作把“每个工具单独建模+单任务奖励调参”的范式，改写为对象中心的统一 RL 目标：在程序化生成的工具族上学习“把任意工具位姿推到随机目标位姿”的通用操控策略。

Core method

机制上等价于在对象空间构造统一 MDP：状态含对象几何与手-物接触，目标是 $d (T_{o bj}, T_{g o a l})$ 最小化。其收益在于把任务特定奖励工程转化为目标位姿驱动，提升零样本迁移。可抽象为 $r_{t} = - α ∥Δ p_{t} ∥_{2} - β d_{R} (R_{t}, R^{*}) - γ slip_{t}$ 并配合大规模对象随机化。

Key equations and mechanisms

实验建议先看 24 tasks/12 objects/6 categories 的真实零样本矩阵，再看与 retargeting、fixed-grasp、specialist RL 的对比，最后检查失败案例（细长工具与强接触任务）。

Experiment reading guide

局限：当前主要验证单臂灵巧手场景，跨末端执行器/双臂协同仍未覆盖；对象程序化分布与真实长尾之间仍有 gap。

Limitations

未来方向是把对象中心策略与触觉先验、VLA 指令语义结合，走向“语义条件下的通用工具操作”。

Future work

复现角度：先重建程序化工具生成器与统一目标采样，再做 domain randomization 量级扫描。

Replication angle

Figure

https://arxiv.org/html/2602.16863/x1.png

Graph: Paper Node 2602.16863