强化学习历史

强化学习历史

1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化

1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习

1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程

1960年,Howard提出马尔科夫决策过程的策略迭代方法

1961年,明斯基在其论文“Steps toward artificial intelligence”中首次使用“Reinforcement learning"一词

*1969年,明斯基因在人工智能领域的贡献获得图灵奖

1989年,Watkins提出了Q-learning,将动态规划、时序差分、蒙特卡洛模拟三条线结合在了一起

1992年,Tesauro将强化学习成功应用到西洋双陆棋
....

2015年,强化学习和深度学习结合:AlphaGo

2017年,AlphaGo Zero
... ..
 

上一篇:从“偃师造倡”到AlphaGo,人们如何想象人工智能的未来?


下一篇:AI 大数据统计仿真