CS294-112:Introduction and Course overview

文章目录

一、课程内容

  • 从监督学习到决策
  • 强化学习中的无模型算法:Q-LearningPolicy Gradients, Actor Critic
  • 高级模型学习与预测
  • 迁移学习,多任务学习,元学习
  • 开放性问题研究与探索

二、什么是深度强化学习

强化学习拥有一个学习者(Agent), 其处在一个环境中,其对环境状态有一个观测,据此其做出决策(行动),决策会改变环境状态,环境会反馈给Agent奖励。强化学习即用数学建模了这一过程,使得Agent能够做出最优决策。
CS294-112:Introduction and Course overview

深度学习提供了一种处理非结构数据的方法,也就能够更好地从环境中提取特征。

两者结合,我们便能够实现能够更加灵活处理现实环境并进行决策的Agent。个人认为,强化学习核心是决策,而深度学习为其提供了一种特征提取的方法,使得Agent能够更加灵活地对现实做出反应。

三、真实世界中的决策需要解决什么问题

传统强化学习是希望最大化奖励,但是这不是仅仅重要的。这里仍然有一些高级的主题

  • 学习奖励函数(逆强化学习)
  • 在不同领域中迁移知识(迁移学习、元学习)。
  • 学习如何预测并根据预测行动。

四、应该如何构建一个智能体

方案一:硬编码实现各个部位(如脑)的功能。困难
CS294-112:Introduction and Course overview
方案二: 建模Agent接受环境输入(深度学习)和根据该输入进行决策功能(强化学习)。稍简单方案二的思想,就是深度强化学习

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child’s? If this were then subjected to an appropriate course of education one would obtain the adult brain。 —图灵
CS294-112:Introduction and Course overview

参考资料

上一篇:REST Introduction


下一篇:An Introduction to Maximum Entropy Model