2021暑期强化学习与对抗学习讨论班

组织者：商小雨李蕾
报告时间：2021.7.6-2021.8.5，每周周二、周四晚上7-8点
报告地点：腾讯会议，周二会议ID：335 7536 2830；周四会议ID：909 7688 3626
报告模板：模板.pptx

预备知识

Richard Sutton and Andrew Barto, Reinforcement Learning: An Introduction (2nd Edition, in progress, 2018) Book
Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey (JAIR 1996) Survey
S. S. Keerthi and B. Ravindran, A Tutorial Survey of Reinforcement Learning (Sadhana 1994) Survey
Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath, A Brief Survey of Deep Reinforcement Learning (IEEE Signal Processing Magazine 2017) Survey
李宏毅深度强化学习课程 youtube bilibili

报告要求

报告内容包含该 topic 的基本内容，不拘泥于推理公式，但需要涵盖问题、解决方法和缺陷（一定要讲缺陷！）
讲解 topic 时可结合其 SOTA 模型或者相关论文
一人一次约30min

参与人员

研二：吴博
研一：商小雨，李蕾，蔡新宇，张炯，冯羽茜，胡家欣，王瑛，戴鑫邦，袁书伟
大四：李鑫，吴楚仪，庄玥，刘立恒，陈海燕，刘伟翼，曹俊，耿飙，任艳杰

报告日程：

汇报录屏集锦 （来源：bilibili）

第一部分：基础知识介绍

2021.7.6 强化学习相关基础知识介绍. 商小雨 ppt video
2021.7.6 马尔科夫决策过程. 李蕾 ppt video

第二部分：值函数方法

2021.7.8 动态规划. 蔡新宇 ppt video
2021.7.8 蒙特卡罗（结合AlphaGo）. 李鑫 ppt video
2021.7.13 时序差分：SARSA. 张炯 ppt video
2021.7.13 时序差分：Q学习. 冯羽茜 ppt video
2021.7.15 时序差分：深度Q网络（包括经验回放机制等）. 胡家欣 ppt video
2021.7.15 时序差分：n-step Bootstrapping. 戴鑫邦 ppt video

第三部分：策略函数方法

2021.7.20 资格痕迹. 吴楚仪 ppt video
2021.7.20 策略梯度. 庄玥 ppt video
2021.7.22 深度确定性策略梯度. 刘立恒 ppt
2021.7.22 近端策略优化. 王瑛 ppt

第四部分：混合型方法

2021.7.27 演员-评论家. 吴博 pptvideo

第五部分：reward相关

2021.7.27 稀疏奖励：好奇心驱动. 陈海燕 ppt video
2021.7.29 稀疏奖励：课程式学习. 袁书伟 ppt video
2021.7.29 稀疏奖励：层次强化学习. 刘伟翼 ppt video
2021.8.3 模仿学习：行为克隆. 曹俊 ppt video
2021.8.3 模仿学习：逆向强化学习. 耿飚 ppt video
2021.8.5 模仿学习：第三人称模仿学习. 任艳杰 ppt video