RoboPocket - Improve Robot Policies Instantly with Your Phone

Title RoboPocket: Improve Robot Policies Instantly with Your Phone
Authors Junjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, et al.
arXiv https://arxiv.org/abs/2603.05504

这篇工作抓住了一个非常现实的瓶颈：DAgger 类交互式改进有效，但“必须上真机”导致吞吐太差；手机采集便宜但通常是盲采样，覆盖不到策略脆弱状态。RoboPocket 的核心贡献是把“策略改进闭环”搬到手机端人类交互里，形成 robot-free 的 instant policy iteration。

机制上，它本质是在近似最小化分布偏移下的风险：

π min E_{s \sim d_{π}} [ℓ (π (s), a^{*} (s))]

但不再依赖真机 rollout 才能更新 $d_{π}$ ，而是通过便携交互系统快速逼近“当前策略易错状态”。这使得数据采集从“离线堆量”转向“误差驱动补洞”，更符合真实机器人迭代节奏。

对 Wanpeng 的价值在于：这条路线与 VLA/模仿学习后训练高度兼容，可以直接作为数据引擎接在已有策略之后，不要求重训整个基础模型。若论文里给出跨任务/跨本体实验，潜在影响会超过单任务性能提升。

局限与风险：手机端交互分布是否会引入新的偏差（例如视角/操作者风格偏差），以及“instant”迭代在复杂长时程任务上是否仍稳定，是复现时要优先验证的点。

建议动作

适合精读并快速做“小规模复现设计”。
先抽取其数据闭环接口，评估是否可嫁接到现有 manipulation/VLA pipeline。

Graph: Paper Node 2603.05504