Title: MEM Multi-Scale Embodied Memory for Vision Language Action Models
Authors: Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang
arXiv: https://arxiv.org/abs/2603.03596
Problem framing
端到端VLA常用短历史窗口拼接观测,但真实多阶段任务需要“语义级长期记忆 + 遮挡补偿短期记忆”。单尺度记忆导致阶段切换、目标追踪与错误恢复能力不足。
Core method
MEM提出多尺度记忆结构:高层语义记忆编码任务阶段与对象状态,低层时序记忆保留近期运动与视觉细节,再通过门控融合到动作解码器。其本质是把“记忆容量”从单一token长度问题转为“层级状态表示”问题。
Key equations and mechanisms
可抽象为: 其中 是条件门控融合, 为语言指令。机制重点在于让长期记忆更新频率低于短期记忆,减少噪声写入。
Experiment reading guide
重点看三类场景:
- 多阶段任务(做饭/收纳类)成功率;
- 视觉遮挡与中断后恢复;
- 与固定窗口历史拼接基线的长度-性能曲线。
Limitations
层级记忆引入了额外状态管理复杂度;在极低时延硬件上可能带来推理开销。若长期记忆写入策略不稳,仍可能产生错误累积。
Future work
可加入可检索外部记忆(检索式memory bank)与不确定性驱动写入,避免无效长期记忆污染。
Replication angle
复现建议先在同一骨干上比较 single-scale vs multi-scale,并做 ablation:去掉 long-term 分支、去掉门控、统一更新频率,观察长任务成功率变化。
图示:arXiv 页面无稳定直链图片。
Graph: Paper Node 2603.03596