Title: Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation
Authors: Kevin Yuchen Ma, Heng Zhang, Weisi Lin, Mike Zheng Shou, Yan Wu
arXiv: https://arxiv.org/abs/2602.13833
Problem framing
工具操作要同时满足“语义理解 + 接触精控”。纯视觉 VLA 往往缺少接触可观测性;纯触觉策略又常停留在实例级,跨工具泛化差。关键矛盾是缺少统一且可扩展的语义-接触表示。
Core method
提出 SCFields:把视觉语义与稠密接触估计融合为统一 3D 场。 训练采用两阶段 sim2real:
- 大规模仿真预训练接触物理先验;
- 少量真实数据微调(几何启发 + 力优化伪标签)对齐传感器域差。 最终以 SCFields 作为扩散策略输入执行接触丰富工具任务。
Key equations and mechanisms
本质是学习一个语义-接触联合场:
其中 表示语义场, 表示接触强度/方向相关特征;策略在统一场上做动作生成,避免“语义与力学两张皮”。
Experiment reading guide
优先看 scraping / crayon drawing / peeling 三类任务:
- 类别级泛化(未见工具几何)提升幅度;
- 相对 vision-only 与 raw tactile 的稳健性差距;
- 伪标签质量对最终策略性能的敏感性。
Limitations
- 仍依赖可用触觉硬件与较复杂标定流程;
- 非线性软传感器在高频接触下的漂移误差可能影响长期稳定性。
Future work
可把不确定性感知并入 SCFields,在接触高风险区域触发保守控制或主动再感知。
Replication angle
先复现仿真预训练 + 小样本真实微调闭环,再做跨类别留出评测,避免只在同类工具上“伪泛化”。
Figure links
- https://arxiv.org/figures/Network_architecture_v2.png
- https://arxiv.org/figures/Task_combined_single_col.png
Graph: Paper Node 2602.13833