Title: Structural Action Transformer for 3D Dexterous Manipulation
Authors: Xiaohan Lei, Min Wang, Bohong Weng, Wengang Zhou, Houqiang Li
arXiv: https://arxiv.org/abs/2603.03960

Problem framing

跨本体灵巧手学习常受限于2D观测与时间序列动作编码,难以保持3D接触几何一致性,导致高自由度手部在新手型/新物体上性能骤降。

Core method

SAT把动作表示从“纯时间token”重构为“结构化动作图”,将手-物体3D关系显式注入Transformer。模型同时建模空间拓扑与时序依赖,使策略在异构手型之间更容易共享可迁移操作结构。

Key equations and mechanisms

核心可表示为结构注意力: 其中 是由手部关节拓扑与接触关系构造的结构先验矩阵。该项把“哪个关节应协同”编码进注意力偏置,提升3D几何一致性。

Experiment reading guide

先看跨本体迁移实验(训练手型A,测试手型B);再看高DoF复杂操作(in-hand reorientation、工具交互)的成功率与轨迹平滑性。

Limitations

结构先验依赖较准确的手部拓扑与几何对齐;在传感噪声大或模型误配时,结构偏置可能引入错误归纳。

Future work

可结合触觉token和接触力估计,把结构先验从几何扩展到力学层面,进一步提升精细接触稳定性。

Replication angle

复现时优先还原结构矩阵构建流程,并做三组对照:无结构偏置、仅拓扑偏置、拓扑+接触偏置,量化跨手型泛化提升来源。

图示:arXiv 页面无稳定直链图片。

Graph: Paper Node 2603.03960