Title: Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning
Authors: Zhangjie Xia, Yu Yang, Pan Xu
arXiv: https://arxiv.org/abs/2602.21072

Problem framing

离线 RL 在机器人迁移里常见“源域数据多、目标域数据少”,但两域动力学不一致会把 Q 估计推向错误外推。本文核心是把“动力学失配”从全局常数改成局部簇级变量,只复用可迁移局部样本。

Core method

LoDADA 先对 做聚类,再训练域判别器估计每个簇的动态差异分数 。随后按簇筛选源域样本: 小的保留, 大的丢弃,最后与目标域小样本联合做离线策略学习。

Key equations and mechanisms

  • 局部失配估计

用域判别器做代理估计,避免显式建模完整转移核。

  • 簇级重加权/筛选

以簇为单位过滤,比逐样本 OOD 判别更稳定、更低算力。

  • 离线 RL 耦合:把筛后数据送入 CQL/IQL 类目标,减少保守项被坏源域样本误导。

Experiment reading guide

优先看三点:1)局部 vs 全局域适配;2)不同失配模式(global/local shift)鲁棒性;3)目标域数据量减少时的退化斜率。

Limitations

聚类质量决定上限;高维表征下簇边界若不稳定,可能误删有价值样本。阈值 仍需任务相关调节。

Future work

可把 做成连续权重而非硬筛选,并引入不确定性校准;进一步与世界模型数据增广联动。

Replication angle

最小复现:用公开离线基准先跑“全局筛选 vs LoDADA 簇筛选”。关键超参是簇数 、域判别器容量、阈值

Key Figure: https://arxiv.org/html/2602.21072/x1.png

Graph: Paper Node 2602.21072