【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)

2022-09-07 19:49:47

title: 【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)

categories:

- Reinforcement Learning

- RL-An Introduction

keywords:

- Trade-Off

- Exploration

- Exploitation

- Goal-Direct

- 平衡

- 探索

- 利用

- 目标导向

toc: true

date: 2018-08-27 22:55:15

Abstract: 本文介绍强化学习中最重要的一个挑战—— “探索”(Exploration)还是“ 利用”(Exploitation)

Keywords: Trade-Off，Exploration，Exploitation，Goal-Direct，平衡，探索，利用，目标导向

Trade-off between Exploitation and Exploration(利用和探索之间的平衡)

在强化学习中会遇到一个伴随一生的问题，这个问题其实也出现在我们的生活中，也会遇到这种问题，当你遇到一个问题，一个你以前已经遇到过的问题，你有两种选择，第一种，按照以前的方法（其中之一）来完成这件事（Exploitation）；或者，你可以尝试另一种方法，一种全新的方法（Exploration）；前者可以获得稳定的效果，但是不一定是最优的，后者可能会得到更优的方法，但是也可能得到一个不如以前方法的效果。

同样的情况在强化学习中会一直伴随我们，两种action，选择其中一个是困难的。在下棋的过程中，针对当前的environment，我们的agent以前有类似的经历，是按照过去的经验完成，还是创新一下，采用一种以前没有经验的方法，这个问题dilemma的，而且这两种方法都没有办法保证自己不会失效（fail）

对于一个随机性的任务，更是要经过无数的尝试，才能得到一个稳定的期望，所以那个?经过了这么久才能在围棋这种困难的项目上打败人类，而更早的深蓝只能在较简单的项目上打败人类（没错，是什么棋我忘了）。这里所谓的随机性的任务，通俗理解，可以想象成打麻将?

对于Exploration 和 Exploitation之间的平衡在第二章中详细分析，这个问题经过了几十年大量数学研究，似乎还是没研究明白。

我们只需要简单的记住，我们要平衡他们就可以了。

监督学习，非监督学习则没有这个问题，所以RL跟他们没有附属关系。

Goal-Direct & Uncertain Environment（目标导向和未知环境）

本文为节选，完整内容地址：https://face2ai.com/RL-RSAB-1-1-2-Reinforcement-Learning/转载标明出处

码农公寓

Trade-off between Exploitation and Exploration(利用和探索之间的平衡)

Goal-Direct & Uncertain Environment（目标导向和未知环境）

相关文章