MEM Multi-Scale Embodied Memory for Vision Language Action Models

Title: MEM Multi-Scale Embodied Memory for Vision Language Action Models
Authors: Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang
arXiv: https://arxiv.org/abs/2603.03596

Problem framing

端到端VLA常用短历史窗口拼接观测，但真实多阶段任务需要“语义级长期记忆 + 遮挡补偿短期记忆”。单尺度记忆导致阶段切换、目标追踪与错误恢复能力不足。

Core method

MEM提出多尺度记忆结构：高层语义记忆编码任务阶段与对象状态，低层时序记忆保留近期运动与视觉细节，再通过门控融合到动作解码器。其本质是把“记忆容量”从单一token长度问题转为“层级状态表示”问题。

Key equations and mechanisms

可抽象为： $m_{t}^{s h or t} = f_{s} (o_{t - k : t}), m_{t}^{l o n g} = f_{l} (m_{t - 1}^{l o n g}, ϕ (o_{t}))$ $a_{t} = π_{θ} (o_{t}, g (m_{t}^{s h or t}, m_{t}^{l o n g}, l_{t}))$ 其中 $g (\cdot)$ 是条件门控融合， $l_{t}$ 为语言指令。机制重点在于让长期记忆更新频率低于短期记忆，减少噪声写入。

Experiment reading guide

重点看三类场景：

多阶段任务（做饭/收纳类）成功率；
视觉遮挡与中断后恢复；
与固定窗口历史拼接基线的长度-性能曲线。

Limitations

层级记忆引入了额外状态管理复杂度；在极低时延硬件上可能带来推理开销。若长期记忆写入策略不稳，仍可能产生错误累积。

Future work

可加入可检索外部记忆（检索式memory bank）与不确定性驱动写入，避免无效长期记忆污染。

Replication angle

复现建议先在同一骨干上比较 single-scale vs multi-scale，并做 ablation：去掉 long-term 分支、去掉门控、统一更新频率，观察长任务成功率变化。

图示：arXiv 页面无稳定直链图片。

Graph: Paper Node 2603.03596