Title: Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies
Authors: Yihao Wu, Jinming Ma, Junbo Tan, Yanzhao Yu, Shoujie Li, Mingliang Zhou, Diyun Xiang, Xueqian Wang
arXiv: https://arxiv.org/abs/2602.11885
Problem framing
语义操作里“仅文本指令”常导致注意对象漂移,扩数据后收益不稳定。该文把目标显式定位(bounding box)引入策略条件,并系统研究操作任务的数据 scaling law,回答“多大数据才值得继续堆”。
Core method
方法有两层:
- 通过手持分割设备+自动标注流水线,大规模构建 bbox 条件数据;
- 训练 bbox-guided diffusion policy,并拟合性能-数据规模关系,分析不同任务复杂度下的收益斜率与拐点。
Key equations and mechanisms
其经验规律可写为: 其中 为数据规模, 反映数据效率。bbox 条件实质上降低了语义歧义熵,使有效样本复杂度下降,即在相同 下获得更低策略误差。
Experiment reading guide
建议先看:
- 文本条件 vs bbox 条件在 clutter 场景成功率差异;
- scaling 曲线是否呈幂律及不同任务的 值;
- 大规模数据下是否出现饱和平台。 这三点直接决定其工程可投资性。
Limitations
- 对检测/分割质量有依赖,噪声框会传导到策略;
- bbox 仍是弱几何约束,对精细接触不足;
- 跨机器人本体泛化证据仍有限。
Future work
可以把 bbox 升级为 mask/3D box/关键点混合条件,并与触觉或力控信号融合,形成更细粒度目标约束。
Replication angle
复现可先在单臂抓取任务验证 scaling 斜率,再迁移到长时程装配。关键是保证标注流水线吞吐和一致性,避免“伪 scaling law”。
Figure links
- 关键图(本地提取,可在 Obsidian 渲染):
../../out/telegram-cards/2026-02-14/2602.11885/Fig_1.png - arXiv 页面无稳定直链图片(已从 source 提取)
Graph: Paper Node 2602.11885