介绍了强化学习和马尔可夫决策过程(MDP)框架。覆盖计划在mdp和学习方法如动态规划、基于模型的方法和模范自由的方法。检查常用的表征包括深度学习表示。学生预计将有一个工作的概率知识,完成编程任务,完成一个课程项目,某种形式的强化学习适用于感兴趣的一个问题。
先决条件:CS 3000最低级的D -;(经济2350最低等级的D -或ENVR 2500最低等级的D -或数学3081最低等级的D -或2320年心理学最低等级的D -或CS 2810最低级的D -);(数学2331最低等级的D -或CS 2810最低级的D -)
页面发送到打印机
打印这一页。
2022 - 2023年本科PDF
2022 - 23个专业研究学院本科PDF
2022 - 2023毕业PDF
2022 - 2023年课程描述PDF