Title: Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control
Authors: Yu Deng, Yufeng Jin, Xiaogang Jia, Jiahong Xue, Gerhard Neumann, Georgia Chalvatzaki
arXiv: https://arxiv.org/abs/2602.11934
arXiv 页面无稳定直链图片。
Problem framing
判别式视觉 backbone 偏语义不变性,而操作控制需要几何敏感性(毫米级位姿变化可感知),造成“看得懂但控不稳”。
Core method
Robot-DIFT 用“扩散教师 + 确定性学生”蒸馏:
- 冻结 diffusion teacher 提供几何结构先验;
- 蒸馏到确定性的 S2-FPN,兼顾实时性与时序稳定性;
- 目标是在不承担扩散推理成本下保留几何一致性。
Key equations and mechanisms
蒸馏目标可写为:
其中多尺度特征对齐保障几何细节,控制损失保障下游可执行性。
Experiment reading guide
- 在 DROID 预训练后对闭环控制指标提升幅度;
- 与 VLA 视觉编码器对比时,几何一致性指标如何定义;
- 实机场景中延迟与鲁棒性的权衡。
Limitations
- 依赖高质量扩散教师;
- 蒸馏后仍可能在极端遮挡/反光场景退化。
Future work
- 与触觉/力觉联合蒸馏形成多模态几何表示;
- 在人形双臂高动态任务上验证泛化边界。
Graph: Paper Node 2602.11934