FRAPPE Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Title: FRAPPE Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment Authors: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang arXiv: https://arxiv.org/abs/2602.17259

Problem framing

FRAPPE 直指 VLA 世界模型训练中的两处“结构性浪费”：一是像素重建目标把容量耗在低层纹理，二是推理时滚动未来帧导致误差累积。其核心是把未来预测目标改成多教师视觉基础模型的表征对齐，并用并行扩展训练提升后训练效率。

Core method

在机制上，可把其目标写成多分支表征一致性： $L = \sum_{k = 1}^{K} λ_{k} ∥ f_{θ} (o_{t + Δ}) - g_{k} (o_{t + Δ}) ∥_{2}^{2} + β L_{a c t}$ 其中 $g_{k}$ 是不同 VFM 教师。相比单一重建损失，这个目标更接近“语义可迁移的未来编码”，对长时程操作更友好。

Key equations and mechanisms

实验阅读建议：先看 RoboTwin 主表（总体增益与数据效率），再看 real-world unseen 任务（泛化稳定性），最后看 ablation（教师数量、并行扩展深度、动作标注比例）。

Experiment reading guide

局限在于：多教师蒸馏对教师质量与域覆盖敏感；并行扩展带来工程复杂度，部署到资源受限边端需进一步压缩。

Limitations

后续值得跟进的是把 FRAPPE 与策略后训练 RL（如世界模型 imagined rollout）打通，形成“表征对齐 + 价值对齐”的双闭环。

Future work

复现实验切入点：优先复现单教师→多教师的增益曲线，再测 action annotation 下采样对性能斜率变化。

Replication angle

Figure

https://arxiv.org/html/2602.17259/x1.png

Graph: Paper Node 2602.17259