📚 ZHANGWP
Search
Search
Search
Light mode
Dark mode
Explorer
diary
<diary_index>
Blog History
Game Log
保研经验分享
鹏程万里
notes
book-reading
RLAI
强化学习导论(七)- n 步自助法
强化学习导论(三)- 有限马尔可夫决策过程
强化学习导论(九)- On-Policy的近似预测
强化学习导论(二)- 多臂老虎机
强化学习导论(五)- 蒙特卡罗方法
强化学习导论(八)- 规划与学习
强化学习导论(六)- 时序差分学习
强化学习导论(十)- On-Policy的近似控制
强化学习导论(十一)- Off-Policy的近似方法
强化学习导论(十三)- 策略梯度法
强化学习导论(十二)- 资格迹
强化学习导论(四)- 动态规划
paper-reading
[2018-12-26]MCTS Introduction
[2020-07-06]Model-based RL with uncertainty
[2020-07-26]Background and Decision-time Planning
[2022-03-25]RL and Language Models
[2022-10-14]Factored Adaption for Non-stationary RL
[2022-11-18]RL with Causal Reasoning
[2023-05-24]Diffusion Models and RL
[2023-06-30]AdaPlanner & LLM Weights
[2023-10-29]Hallucination in LMM
<notes_index>
other
<other_index>
Donate
Friend Link
Statement
share
projects
Markdown 编译转换工具
NKU-EAMIS 工具
NKU-EAMIS_MiniApp
NKU-SMS-RSS
RL Runfast
Steam 市场比价爬虫
<share_index>
南开数院 - 试题汇总
Home
>
other
>
<other_index>
<other_index>
Nov 18, 2023, 1 min read
Friend Link
Donate
Statement
Graph View
Backlinks
Wanpeng Zhang / 张万鹏