AlphaGo获胜是人工智能的重大突破?业内专家提醒要理性对待

1、AlphaGo 的算法是否能够扩展其他棋盘游戏


微软研究院著名机器学习专家John Langford首先对解决了围棋难题的谷歌 Deepmind 团队表示了祝贺,但他同时表示:事实上,(离实现真正的人工智能)还差的十万八千里。


他认为,众所周知,蒙特卡洛树搜索(以下简称MCTS)在围棋中非常有效,但还有很多棋盘游戏MCTS其实并不擅长,因此,AlphaGo的算法是否能够扩展到这些游戏中还有待证实。而深蓝之父Murray Campbell 在专访时也表示:他对 AlphaGo 算法能否推广到其他棋牌类游戏表示怀疑。


John Langford 还提到了此前DeepMind在电脑游戏中的表现,当时 DeepMind 凭借这项研究在Nature封面发表了论文《Human-level control through deep reinforcement learning》。他引用了论文中的一张图(如下)来进行说明,DeepMind 挑战 Atari 游戏的论文结果很有趣,但显然在 1/4 的游戏上的表现也不是那么令人印象深刻。他猜测这其中的原因是,DeepMind的解只做了局部均匀的随机分布(epsilon-greedy)风格的策略搜索,而不是全局的策略搜索,结果他们只能学习到解决短期收益值和贪婪算法可触及到的策略。而全局策略搜索的方式在确定性决策过程、马尔可夫决策过程(MDP)和无模型马尔可夫决策过程(MDPs without modeling )中以显著提升效率而著称。


AlphaGo获胜是人工智能的重大突破?业内专家提醒要理性对待

John Langford认为,不适用这些策略的原因在于,它们主要基于表学习,而非函数拟合。这也是他在2006年的论文之后转向 Contextual Bandit 研究的原因。他们在这方面的积累足够多,可以支撑他们开始处理上下文的确定性决策过程,但是那个解决方案离实用还有很长距离。众所周知,有效的进行全局探索是仅仅是实现真正人工智能过程中已经充分认识到的和亟需解决的几个重要挑战之一。


2、无监督学习是人工智能取得突破的重要一环


而 Yann LeCun 也在自己的 Facebook 主页贴出了这段来自 Slashdot 的评论并称之为「这是完全、彻底、可笑的错误观点。」而他所关注的重点是无监督学习。


AlphaGo获胜是人工智能的重大突破?业内专家提醒要理性对待DeepMind 的增强学习属于无监督学习,但这项技术在 AlphaGo 中却并非重点。Facebook 围棋项目负责人田渊栋在知乎《 AlphaGo 的分析》一文中表示:在 AlphaGo 中,增强学习(Reinforcement Learning)所扮演的角色并没有想像中那么大。在理想情况下,我们希望人工智能系统能在对局中动态地适应环境和对手的招式并且找到办法反制之,但是在 AlphaGo 中增强学习更多地是用于提供更多质量更好的样本,给有监督学习(Supervised Learning)以训练出更好的模型。在这方面增强学习还有很长的路要走。


Yann LeCun 曾反复提及,人类和动物的学习活动绝大多数都是无监督学习。一个绝好的例子就是,婴儿的学习方式为成年时期的智能打下基础。比如说我们会知道,当一个物体移到视线之外时依然存在;或者没有支撑就会掉到地上,等等,这些事情是我们自己通过观察世界而学习到的,并不需要明确的指引。和动物一样,如果机器人想要探索真实世界,那它们就需要这种无监督学习所形成的「常识」。这才会帮助机器挑战更加抽象的任务,例如对语言的理解。


谷歌的机器专家 Jeff Dean 也有着同样的观点:「我非常确信我们需要无监督学习,当你有正确的数据集时,监督式学习会表现得很好,但终极的无监督学习会成为构建真正的智能系统中重要的一环——如果你观察人类的学习方式,你就会发现全部都是非监督式的。」


Yann LeCun做了一个形象的比喻,如果「智能」是一块蛋糕,那无监督学习也会是块蛋糕,而监督学习是蛋糕上的糖霜,强化学习是蛋糕上的樱桃。我们知道如何制作糖霜和樱桃,但依旧不知道如果制作蛋糕。他说:「我们都知道,最终的答案就是无监督学习。解决了无监督学习的问题,将把我们带向更高的级别。」


3、AlphaGo 的数据效率依然低于人类


在 DeepMind 发布围棋论文后,机器学习教授 Neil Lawrence 认为:「谷歌 DeepMind AlphaGo 的胜利来得比预期的更快,这一成就被赞誉为人工智能的突破,但计算机还远没有我们高效。」。


DeepMind 所开发的系统基于两个主要思路:机器学习和随机博弈树搜索(Random game-tree search)。博弈树搜索是一种探索和评估未来的可能行动的方法,是一种在游戏中规划未来的计划系统。机器学习是一种通过数据训练计算机的方法:在这里数据是指棋盘上的布局。通过训练计算机,可以让计算机学会识别棋盘上的好模式。

这个计算机系统通过与自我对战获得训练,它可以从能够导向成功的棋盘布局中学习。当它与人类交手时,它玩过的围棋局数已经远远超过了任何人类一生可能完成的棋局数。这就意味着它从棋局中学习经验的速度远远慢于任何人类。对于 AlphaGo 的自我对战训练,国内机器学习专家周志华也表示:AlphaGo 的「自我博弈」有理论上限突破不了,比如说「就像轻功里的梯云纵,不断两脚互踩还能越飞越高?」

在机器学习领域,这称作数据效率。意指解决个别问题所需要的数据量。人类的数据效率是惊人的,人工智能领域的近期突破却远非如此。


4、对 AlphaGo 研究进展保持理性


John Langford说:「这些东西对业内人士来说很容易理解,但通过媒体报道传递给公众时却有些失真。这非常危险,因为有可能会令人失望(比如说历史上的『人工智能寒冬(AI Winter)』)。如果可以完全杜绝这种「从过度承诺到破灭」的周期,人工智能势必会发展的更好,因此,我才会鼓励人们对 DeepMind 的成功和研究进展程度保持一种平衡客观的态度。掌握围棋是一项伟大的进步,但这离人工智能中最重要的东西还差的很远。」


而Yann LeCun也一再提示我们距离实现真正的人工智能还有很长的路要走,「我们必须先解决无监督学习的难题,然后再去考虑实现真正人工智能。而那仅仅是我们所知道的其中一个障碍,更何况那些我们还不知道的障碍。」


于目前人工智能的进展,Neil Lawrence 借用了蒸汽机研发历史上冷凝器的发明,我们现代人更容易将詹瓦特的名字与蒸汽机联系起来,而不是最初研发出煤炭驱动蒸汽机的Newcomen。原因就自阿雨,瓦特通过引入独立的冷凝器让蒸汽机更加实用,效率加倍。


到目前为止,机器学习依然处在缺失独立冷凝器的时刻。AlphaGo 的突破因此算是通往模拟人类智能道路上的一次突破吗? Lawrence 将其视为一个触发点;一个重要的阶段性目标;一次拍下沿途美景的良机。但这也仅是旅行中的一程,一个我们早就知道我们会到达的地方,但我们比预期更快的的抵达了这一阶段,这就是值得我们庆祝的一个自然原因。

上一篇:微软发布Bot开发框架,用人工智能对话平台豪赌未来


下一篇:可以发送html文本的python脚本