2602.11934 Robot-DIFT扩散几何特征蒸馏控制

Title: Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control
Authors: Yu Deng, Yufeng Jin, Xiaogang Jia, Jiahong Xue, Gerhard Neumann, Georgia Chalvatzaki
arXiv: https://arxiv.org/abs/2602.11934

arXiv 页面无稳定直链图片。

Problem framing

判别式视觉 backbone 偏语义不变性，而操作控制需要几何敏感性（毫米级位姿变化可感知），造成“看得懂但控不稳”。

Core method

Robot-DIFT 用“扩散教师 + 确定性学生”蒸馏：

冻结 diffusion teacher 提供几何结构先验；
蒸馏到确定性的 S2-FPN，兼顾实时性与时序稳定性；
目标是在不承担扩散推理成本下保留几何一致性。

Key equations and mechanisms

蒸馏目标可写为：

L_{d i s t i ll} = l \sum ∥ f_{s t u}^{(l)} (x) - f_{t e a}^{(l)} (x) ∥_{2}^{2} + β L_{c t r l} .

其中多尺度特征对齐保障几何细节，控制损失保障下游可执行性。

Experiment reading guide

在 DROID 预训练后对闭环控制指标提升幅度；
与 VLA 视觉编码器对比时，几何一致性指标如何定义；
实机场景中延迟与鲁棒性的权衡。

Limitations

依赖高质量扩散教师；
蒸馏后仍可能在极端遮挡/反光场景退化。

Future work

与触觉/力觉联合蒸馏形成多模态几何表示；
在人形双臂高动态任务上验证泛化边界。

Graph: Paper Node 2602.11934