RoboCasa365 A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

Title: RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots
Authors: Soroush Nasiriany, Sepehr Nasiriany, Abhiram Maddukuri, Yuke Zhu
arXiv: https://arxiv.org/abs/2603.04356

Problem framing

通用机器人评估常见两类瓶颈：任务规模太小（难反映组合泛化），以及场景变化不足（难检验鲁棒性）。RoboCasa365 试图提供“365个家庭移动操作任务 + 大规模场景多样性”的统一仿真基准，使训练与评测都能覆盖更真实的长尾分布。

Core method

框架在 RoboCasa 基础上扩展任务库与环境参数化机制：将任务按技能依赖分层，并支持跨场景、跨布局、跨物体属性扰动的系统化采样。这样可同时测量：

in-distribution 学习效率；
out-of-distribution 泛化；
随任务数量扩展的性能缩放律。

Key equations and mechanisms

其核心可理解为任务分布风险最小化：

π min E_{τ \sim p (T), e \sim p (E ∣ τ)} [L (π; τ, e)]

其中 $p (T)$ 覆盖 365 任务语义， $p (E ∣ τ)$ 建模同一任务在多厨房布局/物体配置下的变化。重点是扩大 $p (E ∣ τ)$ 的支持集来逼近真实部署分布。

Experiment reading guide

建议优先看：

随训练任务数增长的 scaling 曲线；
新场景零样本/少样本迁移表现；
foundation policy 与 task-specific policy 的性价比拐点。

Limitations

仿真再大也存在现实差距，尤其在接触摩擦、传感噪声和执行器延迟上；因此仍需与真机 benchmark 闭环验证。

Future work

可与真实家庭数据做 domain bridge（视觉/动力学双对齐），并把语言指令歧义、失败恢复和安全约束统一纳入 benchmark 协议。

图示：./out/telegram-cards/2026-03-05/2603.04356-fig.png（task taxonomy / benchmark overview）。

Graph: Paper Node 2603.04356