Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

Title: Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning
Authors: Zhangjie Xia, Yu Yang, Pan Xu
arXiv: https://arxiv.org/abs/2602.21072

Problem framing

离线 RL 在机器人迁移里常见“源域数据多、目标域数据少”，但两域动力学不一致会把 Q 估计推向错误外推。本文核心是把“动力学失配”从全局常数改成局部簇级变量，只复用可迁移局部样本。

Core method

LoDADA 先对 $(s, a, s^{'})$ 做聚类，再训练域判别器估计每个簇的动态差异分数 $d_{k}$ 。随后按簇筛选源域样本： $d_{k}$ 小的保留， $d_{k}$ 大的丢弃，最后与目标域小样本联合做离线策略学习。

Key equations and mechanisms

局部失配估计：

d_{k} \approx E_{(s, a, s^{'}) \in C_{k}} [lo g \frac{p _{src} ( s ^{'} ∣ s , a )}{p _{t g t} ( s ^{'} ∣ s , a )}]

用域判别器做代理估计，避免显式建模完整转移核。

簇级重加权/筛选：

w_{i} = 1 (d_{c (i)} \leq τ)

以簇为单位过滤，比逐样本 OOD 判别更稳定、更低算力。

离线 RL 耦合：把筛后数据送入 CQL/IQL 类目标，减少保守项被坏源域样本误导。

Experiment reading guide

优先看三点：1）局部 vs 全局域适配；2）不同失配模式（global/local shift）鲁棒性；3）目标域数据量减少时的退化斜率。

Limitations

聚类质量决定上限；高维表征下簇边界若不稳定，可能误删有价值样本。阈值 $τ$ 仍需任务相关调节。

Future work

可把 $d_{k}$ 做成连续权重而非硬筛选，并引入不确定性校准；进一步与世界模型数据增广联动。

Replication angle

最小复现：用公开离线基准先跑“全局筛选 vs LoDADA 簇筛选”。关键超参是簇数 $K$ 、域判别器容量、阈值 $τ$ 。

Key Figure: https://arxiv.org/html/2602.21072/x1.png

Graph: Paper Node 2602.21072