JEPA-VLA Video Predictive Embedding is Needed for VLA Models

Title: JEPA-VLA: Video Predictive Embedding is Needed for VLA Models
Authors: Shangchen Miao, Ningya Feng, Jialong Wu, Ye Lin, Xu He, Dong Li, Mingsheng Long
arXiv: https://arxiv.org/abs/2602.11832

Problem framing

作者指出当前 VLA 的瓶颈并不只在动作头或指令理解，而在视觉表征对“时序可预测性”的缺失：静态 VLM 特征对操作中的因果变化不敏感，导致样本效率和泛化能力受限。

Core method

JEPA-VLA 将视频预测嵌入作为视觉 backbone 的训练目标，把“下一时刻潜在状态可预测”作为先验，再接入 VLA 策略学习。整体是“先补时序世界建模能力，再做动作映射”，而非直接端到端模仿。

Key equations and mechanisms

核心机制是最小化潜在空间预测误差： $L_{j e p a} = ∥ z_{t + Δ} - g_{ϕ} (z_{\leq t}, a_{\leq t}) ∥_{2}^{2}$ 并与策略损失联合： $L = L_{a c t} + λ L_{j e p a}$ 其作用是把视觉编码器从“语义对齐”推进到“动力学可辨识”，提升 policy 对遮挡、视角变化与长时依赖的鲁棒性。

Experiment reading guide

重点看：

与 CLIP/DINO 等预训练视觉特征的横向对比；
少样本场景下成功率随数据量变化曲线；
OOD 任务或新场景转移中的性能衰减幅度。如果曲线在低数据区明显抬升，说明“预测性视觉先验”确实在机制上成立。

Limitations

仍依赖视频质量与动作同步标注；
表征学习与策略学习阶段耦合方式有待更系统消融；
在高接触复杂任务上是否稳定仍需更多证据。

Future work

可进一步结合显式世界模型 rollout、引入不确定性估计、并探索跨 embodiment 的统一视觉动力学编码。

Replication angle

复现优先从公开 manipulation benchmark 起步，先冻结/微调两种设置对比；若要迁移真实机器人，建议先验证相机时序与动作时间戳对齐误差。

Figure links

关键图（本地提取，可在 Obsidian 渲染）：../../out/telegram-cards/2026-02-14/2602.11832/analize_figure_new2.png
arXiv 页面无稳定直链图片（已从 source 提取）

Graph: Paper Node 2602.11832