2021暑期强化学习与对抗学习讨论班
组织者:商小雨 李蕾
报告时间:2021.7.6-2021.8.5,每周周二、周四晚上7-8点
报告地点:腾讯会议,周二会议ID:335 7536 2830;周四会议ID:909 7688 3626
报告模板:模板.pptx
预备知识
- Richard Sutton and Andrew Barto, Reinforcement Learning: An Introduction (2nd Edition, in progress, 2018) Book
- Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey (JAIR 1996) Survey
- S. S. Keerthi and B. Ravindran, A Tutorial Survey of Reinforcement Learning (Sadhana 1994) Survey
- Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath, A Brief Survey of Deep Reinforcement Learning (IEEE Signal Processing Magazine 2017) Survey
- 李宏毅深度强化学习课程 youtube
bilibili
报告要求
- 报告内容包含该 topic 的基本内容,不拘泥于推理公式,但需要涵盖问题、解决方法和缺陷(一定要讲缺陷!)
- 讲解 topic 时可结合其 SOTA 模型或者相关论文
- 一人一次约30min
参与人员
- 研二:吴博
- 研一:商小雨,李蕾,蔡新宇,张炯,冯羽茜,胡家欣,王瑛,戴鑫邦,袁书伟
- 大四:李鑫,吴楚仪,庄玥,刘立恒,陈海燕,刘伟翼,曹俊,耿飙,任艳杰
报告日程:
汇报录屏集锦 (来源:bilibili)
第一部分:基础知识介绍
2021.7.6 强化学习相关基础知识介绍. 商小雨 ppt video
2021.7.6 马尔科夫决策过程. 李蕾 ppt video
第二部分:值函数方法
2021.7.8 动态规划. 蔡新宇 ppt video
2021.7.8 蒙特卡罗(结合AlphaGo). 李鑫 ppt video
2021.7.13 时序差分:SARSA. 张炯 ppt video
2021.7.13 时序差分:Q学习. 冯羽茜 ppt video
2021.7.15 时序差分:深度Q网络(包括经验回放机制等). 胡家欣 ppt video
2021.7.15 时序差分:n-step Bootstrapping. 戴鑫邦 ppt video
第三部分:策略函数方法
2021.7.20 资格痕迹. 吴楚仪 ppt video
2021.7.20 策略梯度. 庄玥 ppt video
2021.7.22 深度确定性策略梯度. 刘立恒 ppt
2021.7.22 近端策略优化. 王瑛 ppt
第四部分:混合型方法
2021.7.27 演员-评论家. 吴博 pptvideo
第五部分:reward相关
2021.7.27 稀疏奖励:好奇心驱动. 陈海燕 ppt video
2021.7.29 稀疏奖励:课程式学习. 袁书伟 ppt video
2021.7.29 稀疏奖励:层次强化学习. 刘伟翼 ppt video
2021.8.3 模仿学习:行为克隆. 曹俊 ppt video
2021.8.3 模仿学习:逆向强化学习. 耿飚 ppt video
2021.8.5 模仿学习:第三人称模仿学习. 任艳杰 ppt video