Title: RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots
Authors: Soroush Nasiriany, Sepehr Nasiriany, Abhiram Maddukuri, Yuke Zhu
arXiv: https://arxiv.org/abs/2603.04356
Problem framing
通用机器人评估常见两类瓶颈:任务规模太小(难反映组合泛化),以及场景变化不足(难检验鲁棒性)。RoboCasa365 试图提供“365个家庭移动操作任务 + 大规模场景多样性”的统一仿真基准,使训练与评测都能覆盖更真实的长尾分布。
Core method
框架在 RoboCasa 基础上扩展任务库与环境参数化机制:将任务按技能依赖分层,并支持跨场景、跨布局、跨物体属性扰动的系统化采样。这样可同时测量:
- in-distribution 学习效率;
- out-of-distribution 泛化;
- 随任务数量扩展的性能缩放律。
Key equations and mechanisms
其核心可理解为任务分布风险最小化:
其中 覆盖 365 任务语义, 建模同一任务在多厨房布局/物体配置下的变化。重点是扩大 的支持集来逼近真实部署分布。
Experiment reading guide
建议优先看:
- 随训练任务数增长的 scaling 曲线;
- 新场景零样本/少样本迁移表现;
- foundation policy 与 task-specific policy 的性价比拐点。
Limitations
仿真再大也存在现实差距,尤其在接触摩擦、传感噪声和执行器延迟上;因此仍需与真机 benchmark 闭环验证。
Future work
可与真实家庭数据做 domain bridge(视觉/动力学双对齐),并把语言指令歧义、失败恢复和安全约束统一纳入 benchmark 协议。
图示:./out/telegram-cards/2026-03-05/2603.04356-fig.png(task taxonomy / benchmark overview)。
Graph: Paper Node 2603.04356