Title: Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies
Authors: Yihao Wu, Jinming Ma, Junbo Tan, Yanzhao Yu, Shoujie Li, Mingliang Zhou, Diyun Xiang, Xueqian Wang
arXiv: https://arxiv.org/abs/2602.11885

Problem framing

语义操作里“仅文本指令”常导致注意对象漂移,扩数据后收益不稳定。该文把目标显式定位(bounding box)引入策略条件,并系统研究操作任务的数据 scaling law,回答“多大数据才值得继续堆”。

Core method

方法有两层:

  1. 通过手持分割设备+自动标注流水线,大规模构建 bbox 条件数据;
  2. 训练 bbox-guided diffusion policy,并拟合性能-数据规模关系,分析不同任务复杂度下的收益斜率与拐点。

Key equations and mechanisms

其经验规律可写为: 其中 为数据规模, 反映数据效率。bbox 条件实质上降低了语义歧义熵,使有效样本复杂度下降,即在相同 下获得更低策略误差。

Experiment reading guide

建议先看:

  • 文本条件 vs bbox 条件在 clutter 场景成功率差异;
  • scaling 曲线是否呈幂律及不同任务的 值;
  • 大规模数据下是否出现饱和平台。 这三点直接决定其工程可投资性。

Limitations

  • 对检测/分割质量有依赖,噪声框会传导到策略;
  • bbox 仍是弱几何约束,对精细接触不足;
  • 跨机器人本体泛化证据仍有限。

Future work

可以把 bbox 升级为 mask/3D box/关键点混合条件,并与触觉或力控信号融合,形成更细粒度目标约束。

Replication angle

复现可先在单臂抓取任务验证 scaling 斜率,再迁移到长时程装配。关键是保证标注流水线吞吐和一致性,避免“伪 scaling law”。

  • 关键图(本地提取,可在 Obsidian 渲染):../../out/telegram-cards/2026-02-14/2602.11885/Fig_1.png
  • arXiv 页面无稳定直链图片(已从 source 提取)

Graph: Paper Node 2602.11885