Title: Affordance-Graphed Task Worlds - Self-Evolving Task Generation for Scalable Embodied Learning
Authors: Xiang Liu, Sen Cui, Guocai Yao, Zhong Cao, Jingheng Ma, Yuan Gao, Jiaheng Lai, Yongchao Wang, Lechao Cheng
arXiv: https://arxiv.org/abs/2602.12065

Problem framing

纯真实世界采集不可扩展,生成式仿真又常产生逻辑不一致长时程任务。本文试图用结构化任务图约束“任务生成—策略学习—反馈修正”全流程。

Core method

AGT-World 把任务空间表示为 affordance graph:复杂目标分解为可验证原子操作,再用自进化机制(混合反馈)迭代修正任务与策略。

Key equations and mechanisms

可抽象为图上策略学习:

\mathcal{T}=(\mathcal{V},\mathcal{E}),\quad \pi^* = rg\max_\pi \sum_{(u,v)\in\mathcal{E}} w_{uv} R_{uv}(\pi)

其中边权体现可供性与执行可行性,减少随机任务提案造成的无效训练样本。

Experiment reading guide

关注:

  • 长时程任务逻辑一致性指标;
  • 与随机生成任务相比的样本效率/成功率提升;
  • 自进化回路在迭代轮次上的稳定性。

Limitations

  • 任务图构建质量决定上限;
  • 真机迁移时仍需处理仿真-现实差距。

Future work

可引入语言反馈与真实执行日志联合更新图结构,形成闭环数据引擎。

Replication angle

可先从单场景多任务做图构建 ablation,再扩到跨场景迁移,观察图结构复用率。

  • arXiv 页面无稳定直链图片

Graph: Paper Node 2602.12065