CS 4180。强化学习。(4小时)

介绍了强化学习和马尔可夫决策过程(MDP)框架。覆盖计划在mdp和学习方法如动态规划、基于模型的方法和模范自由的方法。检查常用的表征包括深度学习表示。学生预计将有一个工作的概率知识,完成编程任务,完成一个课程项目,某种形式的强化学习适用于感兴趣的一个问题。

先决条件:CS 3000最低级的D -;(经济2350最低等级的D -或ENVR 2500最低等级的D -或数学3081最低等级的D -或2320年心理学最低等级的D -或CS 2810最低级的D -);(数学2331最低等级的D -或CS 2810最低级的D -)