Title: RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots
Authors: Soroush Nasiriany, Sepehr Nasiriany, Abhiram Maddukuri, Yuke Zhu
arXiv: https://arxiv.org/abs/2603.04356

Problem framing

通用机器人评估常见两类瓶颈:任务规模太小(难反映组合泛化),以及场景变化不足(难检验鲁棒性)。RoboCasa365 试图提供“365个家庭移动操作任务 + 大规模场景多样性”的统一仿真基准,使训练与评测都能覆盖更真实的长尾分布。

Core method

框架在 RoboCasa 基础上扩展任务库与环境参数化机制:将任务按技能依赖分层,并支持跨场景、跨布局、跨物体属性扰动的系统化采样。这样可同时测量:

  • in-distribution 学习效率;
  • out-of-distribution 泛化;
  • 随任务数量扩展的性能缩放律。

Key equations and mechanisms

其核心可理解为任务分布风险最小化:

其中 覆盖 365 任务语义, 建模同一任务在多厨房布局/物体配置下的变化。重点是扩大 的支持集来逼近真实部署分布。

Experiment reading guide

建议优先看:

  1. 随训练任务数增长的 scaling 曲线;
  2. 新场景零样本/少样本迁移表现;
  3. foundation policy 与 task-specific policy 的性价比拐点。

Limitations

仿真再大也存在现实差距,尤其在接触摩擦、传感噪声和执行器延迟上;因此仍需与真机 benchmark 闭环验证。

Future work

可与真实家庭数据做 domain bridge(视觉/动力学双对齐),并把语言指令歧义、失败恢复和安全约束统一纳入 benchmark 协议。

图示:./out/telegram-cards/2026-03-05/2603.04356-fig.png(task taxonomy / benchmark overview)。

Graph: Paper Node 2603.04356