Title: Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation
Authors: Kevin Yuchen Ma, Heng Zhang, Weisi Lin, Mike Zheng Shou, Yan Wu
arXiv: https://arxiv.org/abs/2602.13833

Problem framing

工具操作要同时满足“语义理解 + 接触精控”。纯视觉 VLA 往往缺少接触可观测性;纯触觉策略又常停留在实例级,跨工具泛化差。关键矛盾是缺少统一且可扩展的语义-接触表示。

Core method

提出 SCFields:把视觉语义与稠密接触估计融合为统一 3D 场。 训练采用两阶段 sim2real:

  1. 大规模仿真预训练接触物理先验;
  2. 少量真实数据微调(几何启发 + 力优化伪标签)对齐传感器域差。 最终以 SCFields 作为扩散策略输入执行接触丰富工具任务。

Key equations and mechanisms

本质是学习一个语义-接触联合场:

其中 表示语义场, 表示接触强度/方向相关特征;策略在统一场上做动作生成,避免“语义与力学两张皮”。

Experiment reading guide

优先看 scraping / crayon drawing / peeling 三类任务:

  • 类别级泛化(未见工具几何)提升幅度;
  • 相对 vision-only 与 raw tactile 的稳健性差距;
  • 伪标签质量对最终策略性能的敏感性。

Limitations

  • 仍依赖可用触觉硬件与较复杂标定流程;
  • 非线性软传感器在高频接触下的漂移误差可能影响长期稳定性。

Future work

可把不确定性感知并入 SCFields,在接触高风险区域触发保守控制或主动再感知。

Replication angle

先复现仿真预训练 + 小样本真实微调闭环,再做跨类别留出评测,避免只在同类工具上“伪泛化”。

Graph: Paper Node 2602.13833