Dex4D Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation

Title: Dex4D: Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation
Authors: Yuxuan Kuang, Sungjae Park, Katerina Fragkiadaki, Shubham Tulsiani
arXiv: https://arxiv.org/abs/2602.15828

Problem framing

灵巧手通用策略的核心瓶颈是：真实遥操作数据昂贵、任务级奖励设计重、不同任务之间难共享。Dex4D 的切入点是“先学任务无关的可重组技能”，再在真实场景用最少标注做重组，而不是为每个任务单独训练一条策略。

Core method

方法将策略学习拆为两层：

Point-track skill prior：在仿真中学习稳定的接触/运动基元，输入是视觉点轨迹与手部状态；
Task composition head：在下游任务中按目标组合基元，减少每任务重新学习成本。

核心思想可写为：

π (a_{t} ∣ o_{t}, g) = k = 1 \sum K w_{k} (o_{t}, g) π_{k} (a_{t} ∣ o_{t})

其中 $π_{k}$ 是任务无关技能， $w_{k}$ 是任务相关重组权重。

Experiment reading guide

优先看三点：

sim2real 转移下，相比 task-specific policy 的成功率增益；
新任务 few-shot 适配时，样本效率曲线是否明显更陡；
不同手型/不同物体类别下，point-track 表征是否保持稳定。

Limitations

仍依赖高质量轨迹提取，感知噪声大时会影响基元重组；
对超长时程任务（多阶段工具使用）是否可扩展尚不充分；
真实世界触觉反馈利用程度仍有限。

Future work

可结合触觉 token 与对象部件拓扑图，把“轨迹对齐”升级到“接触语义对齐”，进一步增强跨物体泛化。

Replication angle

复现时建议先固定仿真技能库规模 $K$ ，做 “skills frozen vs end-to-end finetune” 对照，重点观察 real-world 样本效率差异。

Figure links

Graph: Paper Node 2602.15828