Title: Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control
Authors: Yu Deng, Yufeng Jin, Xiaogang Jia, Jiahong Xue, Gerhard Neumann, Georgia Chalvatzaki
arXiv: https://arxiv.org/abs/2602.11934

arXiv 页面无稳定直链图片。

Problem framing

判别式视觉 backbone 偏语义不变性,而操作控制需要几何敏感性(毫米级位姿变化可感知),造成“看得懂但控不稳”。

Core method

Robot-DIFT 用“扩散教师 + 确定性学生”蒸馏:

  • 冻结 diffusion teacher 提供几何结构先验;
  • 蒸馏到确定性的 S2-FPN,兼顾实时性与时序稳定性;
  • 目标是在不承担扩散推理成本下保留几何一致性。

Key equations and mechanisms

蒸馏目标可写为:

其中多尺度特征对齐保障几何细节,控制损失保障下游可执行性。

Experiment reading guide

  • 在 DROID 预训练后对闭环控制指标提升幅度;
  • 与 VLA 视觉编码器对比时,几何一致性指标如何定义;
  • 实机场景中延迟与鲁棒性的权衡。

Limitations

  • 依赖高质量扩散教师;
  • 蒸馏后仍可能在极端遮挡/反光场景退化。

Future work

  • 与触觉/力觉联合蒸馏形成多模态几何表示;
  • 在人形双臂高动态任务上验证泛化边界。

Graph: Paper Node 2602.11934