Learning to Manipulate Anything Revealing Data Scaling Laws in Bounding-Box Guided Policies

Title: Learning to Manipulate Anything: Revealing Data Scaling Laws in Bounding-Box Guided Policies
Authors: Yihao Wu, Jinming Ma, Junbo Tan, Yanzhao Yu, Shoujie Li, Mingliang Zhou, Diyun Xiang, Xueqian Wang
arXiv: https://arxiv.org/abs/2602.11885

Problem framing

语义操作里“仅文本指令”常导致注意对象漂移，扩数据后收益不稳定。该文把目标显式定位（bounding box）引入策略条件，并系统研究操作任务的数据 scaling law，回答“多大数据才值得继续堆”。

Core method

方法有两层：

通过手持分割设备+自动标注流水线，大规模构建 bbox 条件数据；
训练 bbox-guided diffusion policy，并拟合性能-数据规模关系，分析不同任务复杂度下的收益斜率与拐点。

Key equations and mechanisms

其经验规律可写为： $ϵ (N) \approx a N^{- b} + c$ 其中 $N$ 为数据规模， $b$ 反映数据效率。bbox 条件实质上降低了语义歧义熵，使有效样本复杂度下降，即在相同 $N$ 下获得更低策略误差。

Experiment reading guide

建议先看：

文本条件 vs bbox 条件在 clutter 场景成功率差异；
scaling 曲线是否呈幂律及不同任务的 $b$ 值；
大规模数据下是否出现饱和平台。这三点直接决定其工程可投资性。

Limitations

对检测/分割质量有依赖，噪声框会传导到策略；
bbox 仍是弱几何约束，对精细接触不足；
跨机器人本体泛化证据仍有限。

Future work

可以把 bbox 升级为 mask/3D box/关键点混合条件，并与触觉或力控信号融合，形成更细粒度目标约束。

Replication angle

复现可先在单臂抓取任务验证 scaling 斜率，再迁移到长时程装配。关键是保证标注流水线吞吐和一致性，避免“伪 scaling law”。

Figure links

关键图（本地提取，可在 Obsidian 渲染）：../../out/telegram-cards/2026-02-14/2602.11885/Fig_1.png
arXiv 页面无稳定直链图片（已从 source 提取）

Graph: Paper Node 2602.11885