强化学习历史
1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化
1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习
1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程
1960年,Howard提出马尔科夫决策过程的策略迭代方法
1961年,明斯基在其论文“Steps toward artificial intelligence”中首次使用“Reinforcement learning"一词
*1969年,明斯基因在人工智能领域的贡献获得图灵奖
1989年,Watkins提出了Q-learning,将动态规划、时序差分、蒙特卡洛模拟三条线结合在了一起
1992年,Tesauro将强化学习成功应用到西洋双陆棋
....
2015年,强化学习和深度学习结合:AlphaGo
2017年,AlphaGo Zero
... ..