2021暑期强化学习与对抗学习讨论班

组织者:商小雨 李蕾
报告时间:2021.7.6-2021.8.5,每周周二、周四晚上7-8点
报告地点:腾讯会议,周二会议ID:335 7536 2830;周四会议ID:909 7688 3626
报告模板:模板.pptx

预备知识

  1. Richard Sutton and Andrew Barto, Reinforcement Learning: An Introduction (2nd Edition, in progress, 2018) Book
  2. Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey (JAIR 1996) Survey
  3. S. S. Keerthi and B. Ravindran, A Tutorial Survey of Reinforcement Learning (Sadhana 1994) Survey
  4. Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath, A Brief Survey of Deep Reinforcement Learning (IEEE Signal Processing Magazine 2017) Survey
  5. 李宏毅深度强化学习课程 youtube bilibili

报告要求

  1. 报告内容包含该 topic 的基本内容,不拘泥于推理公式,但需要涵盖问题、解决方法和缺陷(一定要讲缺陷!)
  2. 讲解 topic 时可结合其 SOTA 模型或者相关论文
  3. 一人一次约30min

参与人员

报告日程:

汇报录屏集锦 (来源:bilibili)

第一部分:基础知识介绍

  1. 2021.7.6 强化学习相关基础知识介绍. 商小雨 ppt video
  2. 2021.7.6 马尔科夫决策过程. 李蕾 ppt video

第二部分:值函数方法

  1. 2021.7.8 动态规划. 蔡新宇 ppt video
  2. 2021.7.8 蒙特卡罗(结合AlphaGo). 李鑫 ppt video
  3. 2021.7.13 时序差分:SARSA. 张炯 ppt video
  4. 2021.7.13 时序差分:Q学习. 冯羽茜 ppt video
  5. 2021.7.15 时序差分:深度Q网络(包括经验回放机制等). 胡家欣 ppt video
  6. 2021.7.15 时序差分:n-step Bootstrapping. 戴鑫邦 ppt video

第三部分:策略函数方法

  1. 2021.7.20 资格痕迹. 吴楚仪 ppt video
  2. 2021.7.20 策略梯度. 庄玥 ppt video
  3. 2021.7.22 深度确定性策略梯度. 刘立恒 ppt
  4. 2021.7.22 近端策略优化. 王瑛 ppt

第四部分:混合型方法

  1. 2021.7.27 演员-评论家. 吴博 pptvideo

第五部分:reward相关

  1. 2021.7.27 稀疏奖励:好奇心驱动. 陈海燕 ppt video
  2. 2021.7.29 稀疏奖励:课程式学习. 袁书伟 ppt video
  3. 2021.7.29 稀疏奖励:层次强化学习. 刘伟翼 ppt video
  4. 2021.8.3 模仿学习:行为克隆. 曹俊 ppt video
  5. 2021.8.3 模仿学习:逆向强化学习. 耿飚 ppt video
  6. 2021.8.5 模仿学习:第三人称模仿学习. 任艳杰 ppt video