强化学习历史

2024-03-08 17:32:46

1911年，Thorndike提出效果律(Law of effect)，从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化，动物感到不舒服的行为会被弱化

1954年，马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习

1957年，Bellman提出求解最优控制问题的动态规划方法，并提出了最优控制问题的随机离散版本，即著名的马尔科夫决策过程

1960年，Howard提出马尔科夫决策过程的策略迭代方法

1961年，明斯基在其论文“Steps toward artificial intelligence”中首次使用“Reinforcement learning"一词

*1969年，明斯基因在人工智能领域的贡献获得图灵奖

1989年，Watkins提出了Q-learning，将动态规划、时序差分、蒙特卡洛模拟三条线结合在了一起

1992年，Tesauro将强化学习成功应用到西洋双陆棋
....

2015年，强化学习和深度学习结合:AlphaGo

2017年，AlphaGo Zero
... ..

码农公寓