Title: JEPA-VLA: Video Predictive Embedding is Needed for VLA Models
Authors: Shangchen Miao, Ningya Feng, Jialong Wu, Ye Lin, Xu He, Dong Li, Mingsheng Long
arXiv: https://arxiv.org/abs/2602.11832

Problem framing

作者指出当前 VLA 的瓶颈并不只在动作头或指令理解,而在视觉表征对“时序可预测性”的缺失:静态 VLM 特征对操作中的因果变化不敏感,导致样本效率和泛化能力受限。

Core method

JEPA-VLA 将视频预测嵌入作为视觉 backbone 的训练目标,把“下一时刻潜在状态可预测”作为先验,再接入 VLA 策略学习。整体是“先补时序世界建模能力,再做动作映射”,而非直接端到端模仿。

Key equations and mechanisms

核心机制是最小化潜在空间预测误差: 并与策略损失联合: 其作用是把视觉编码器从“语义对齐”推进到“动力学可辨识”,提升 policy 对遮挡、视角变化与长时依赖的鲁棒性。

Experiment reading guide

重点看:

  • 与 CLIP/DINO 等预训练视觉特征的横向对比;
  • 少样本场景下成功率随数据量变化曲线;
  • OOD 任务或新场景转移中的性能衰减幅度。 如果曲线在低数据区明显抬升,说明“预测性视觉先验”确实在机制上成立。

Limitations

  • 仍依赖视频质量与动作同步标注;
  • 表征学习与策略学习阶段耦合方式有待更系统消融;
  • 在高接触复杂任务上是否稳定仍需更多证据。

Future work

可进一步结合显式世界模型 rollout、引入不确定性估计、并探索跨 embodiment 的统一视觉动力学编码。

Replication angle

复现优先从公开 manipulation benchmark 起步,先冻结/微调两种设置对比;若要迁移真实机器人,建议先验证相机时序与动作时间戳对齐误差。

  • 关键图(本地提取,可在 Obsidian 渲染):../../out/telegram-cards/2026-02-14/2602.11832/analize_figure_new2.png
  • arXiv 页面无稳定直链图片(已从 source 提取)

Graph: Paper Node 2602.11832