Title: FRAPPE Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment Authors: Han Zhao, Jingbo Wang, Wenxuan Song, Shuai Chen, Yang Liu, Yan Wang, Haoang Li, Donglin Wang arXiv: https://arxiv.org/abs/2602.17259

Problem framing

FRAPPE 直指 VLA 世界模型训练中的两处“结构性浪费”:一是像素重建目标把容量耗在低层纹理,二是推理时滚动未来帧导致误差累积。其核心是把未来预测目标改成多教师视觉基础模型的表征对齐,并用并行扩展训练提升后训练效率。

Core method

在机制上,可把其目标写成多分支表征一致性: 其中 是不同 VFM 教师。相比单一重建损失,这个目标更接近“语义可迁移的未来编码”,对长时程操作更友好。

Key equations and mechanisms

实验阅读建议:先看 RoboTwin 主表(总体增益与数据效率),再看 real-world unseen 任务(泛化稳定性),最后看 ablation(教师数量、并行扩展深度、动作标注比例)。

Experiment reading guide

局限在于:多教师蒸馏对教师质量与域覆盖敏感;并行扩展带来工程复杂度,部署到资源受限边端需进一步压缩。

Limitations

后续值得跟进的是把 FRAPPE 与策略后训练 RL(如世界模型 imagined rollout)打通,形成“表征对齐 + 价值对齐”的双闭环。

Future work

复现实验切入点:优先复现单教师→多教师的增益曲线,再测 action annotation 下采样对性能斜率变化。

Replication angle

Figure

https://arxiv.org/html/2602.17259/x1.png

Graph: Paper Node 2602.17259