棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

雷锋网(公众号:雷锋网)按:本文来自 硬创公开课 | AlphaGo专场的分享。

分享嘉宾:业余围棋5段,高飞龙。一并感谢业余围棋6段,鲍云对本次分享的友情支持。

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

一、围棋圈内怎么看待前两场的胜负

第一局比赛,过程中大部分棋手很可能出现了相当程度的误判,认为李世石一度占优,而第二局比赛后,职业高手们对AI的决策原理了解的越来越多,判断也不断地在改变。

第一局输掉后,大家的情绪都很低落,虽然知道这一天早晚会来,但事前都认为没这么快,人类应该还能抵抗一段时间,但第二局结束后,大家对AI的实力判断普遍调高,很多人甚至认为柯洁现在上了也未必能赢。当晚,大量的职业高手就进行了深度的反思和讨论,尤其是李喆六段。

(根据我得到的信息)AlphaGo在第一局中,对自身获胜概率的判断应该始终高于半数,也就是我们说的始终优势,而第二局中,它反而在中盘有一段时间认为获胜概率为半数,也就是预测和棋,这和大部分人类高手在解说时的判断完全不同,是一个非常有趣的现象。

但赛后经过深入的分析,我听到的声音越来越倾向于支持电脑的判断,也就是说,第一局棋,李世石的确没有优势过,而我们要重新审视电脑下出的那些“缓手”和“错着”

二、如何评价此前大家认为两局中人和机器双方的“失误”?

首先,正如我前面所说,我个人认同第一局中,李世石始终没有占据优势,所以,也就没有所谓转折点的说法。

电脑的确下出了一些从普通棋理来看有问题的下法,并且取得了胜利,但这不一定说明棋理完全是错的。

我想重复一下很多人都已经提过的一点,这也是我们审视棋局非常重要的信息:电脑行棋的决策,是依据对落点后续变化的获胜概率来判断的。

这里我想引用一下李喆六段在第一天晚上复盘的讲解:

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

电脑的这一步长,当场被所有人视为缓手。但是复盘时李喆认为,这一手棋不一定不好,甚至在电脑的决策中,这已经是最好的一手(其实这是肯定的,因为电脑就是这样选择的)。

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

如果电脑不补棋,黑棋在左上的出动可能极为严厉,当然这不是说白棋就一定不能这么下,只是这后面的变化相当复杂,电脑应该判断这样的获胜概率不如实战的下法,所以选择了实战的“缓手”补棋。

紧接着,还有一个关键处,当时所有人都认为电脑的下法简直不可理喻,但我们还是顺着电脑的逻辑来复盘,就有办法理解:

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

这步断,直接将大空送给黑棋,局部来说,是严重亏损的下法,但电脑选择了这个下法,然后所有人都认为黑棋已经明显优势,可局后AG团队却说AG始终判断自己优势,为什么?

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

左下白棋损了一大把,然后做了几个简单的准备性交换之后,下出了右边的点,这步点被所有人认为是精彩的“胜负手”,局后也认为是妙手,但我们可能忽略了一个可能:电脑早就将这步棋和其导致的后续变化算在了形势判断中。

也就是说,电脑知道这以后它将在右边一代走成后续的变化,这是它的“权利”,所以即使左下角白棋严重亏损,但抢到先手之后将右边的“权利”兑现,白棋仍然是优势。

而左下局部亏损的下法,可能让它赢的更少,但却缩小了棋盘,令盘上剩余的空间和变化都大大减少了,用人类的说法,就是缩小了棋盘并接近终点,这和AG的逻辑是一样的,只不过AG可以通过获胜概率来更精准的判断这一点。

所以AG在选择左上的缓手补棋,选择左下的亏损变化抢先手的时候,已经考虑了这所有的变化并将后续在右边点入占到的便宜计入形势判断,所有这些走完之后,棋盘大幅度减小并且白棋局面领先,从电脑的角度来看,自己的获胜概率一直在提高。

(当然,这里包含了一些我从他人处看来的观点,还包含了我个人的一些猜想式的判断,可能会过于高估电脑,但我认为我们应该高估而不应该低估,更何况从结果来看,这种猜想很可能是对的,AG就是看了这么远)

二、如何看待外界评价对弈中没有“打劫”的问题?

打劫包含很多转换的可能,对电脑来说可能会降低获胜概率,哪怕只是从90%降低到80%,所以它不选择打劫。即使对人来说也是这样,在赢棋的局面下,讲究简化局面减少变化,尽量不选择复杂的打劫,增加获胜的可能。

没打劫的棋也多了,没什么特别离奇的,打了也输,就是李没拼显得有点没骨气,很多人觉得他没有表现出人类的风采。(鲍云观点)

三、AlphaGo与人类走子的差异

很多人说AG和人类棋手下的不是一种围棋,它是以获胜概率为指向,而人是以局部赚几目亏几目来判断,其实不是这么简单。这种说法其实对人类围棋的高水平段不太了解。

正如我回答前一个问题所说,人类也会在逼近终局的时候,选择亏损但是缩小棋盘减少变化的方式,来逼近终点。这就是典型的以减少获胜目数来提高获胜概率的决策。只不过人类对概率的判断基于经验和直觉,应该比不上成熟之后的电脑的判断准确度。

但如果是最优解,也就是我们说的“围棋上帝”,很可能于此不同。我们现在的对局,是单一的全局获胜就全部获胜,输赢的目数多少其实没有意义。而人会失误,所以出现了我前述所言的目数换概率的决策方式。但如果现在有一个“神”,它穷尽了围棋所有的变化,根本不会失误,那当他跟李世石下的时候,会这样吗?

当然,无论如何他都能赢,那么从追求围棋最优解的角度来说,他就可能不使用目数换概率的决策,因为他获胜的概率一定是百分之百,那么对他来说,最优解就应该是尽量提高获胜目数。

这里我想举两个例子。

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

白棋136,按照最优解应该下在A位,在这样的相对封闭空间里,电脑应该不会在手段和目数的计算上出现失误。

但它这样决策,就说明它认为,虽然亏了一目,但这样的下法后续更不容易出现失误(或者类似),所以获胜概率提高了。还有一个让所有人头疼的例子:

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

如果说电脑前半盘的“缓手”当天还可以很快解释,那么右下角的这个“失误”就让很多人难以理解,只能认为电脑确实算错了,或者判断错了~由此认为电脑不是无懈可击。

这步棋按照人的思路,只需要跳在一四,黑棋将输的更快。

棋手眼中,AlphaGo对抗李世石用了哪些奇招 | 硬创公开课

黑2是我随便摆的,意思是脱先。白1跳在这里,黑棋如果脱先,则白棋保留这样救出上方三子的手段,黑棋输的更惨。如果黑棋补棋,则丢掉先手,一样比实战惨。

可电脑为什么没有这么下?看过第二盘之后,我们对电脑的计算力有了新的认识,更多的人认为,电脑的计算水平应该不至于算不到这个变化,而是认为这个变化获胜的概率不如实战。

这同样是一个封闭空间,人类提出的下法是最优下法,这没有疑问,因为在这个空间里,人类可以穷尽所有变化。但是AG呢?它肯定也能。

我第一天晚上始终对这个局部想不明白,认为是电脑的失误,但第二日后慢慢觉得,它的决策模型,虽然我不知道怎么判断的概率,一定认为这些后续变化降低了获胜概率。

四、如何预测下一场比赛的胜负?

不知道。如果按照以上这些分析的判断,我会高估电脑一些。

也就是电脑很可能全胜,但出于感情,我支持李世石赢一盘。

我们看到电脑有些局部可能不选择最优解,这种“失误”到底是不是“失误”,在于有没有“人”能利用其获胜。

我有一个大胆的猜想,如果想要打败这一代的AI,很可能会是下一代的AI,而不是人类高手。

五、AlphaGo的围棋观和人类的不同

电脑从开始到最后,一直是获胜概率导向的,而人因为很难准确的判断概率,会以大量的棋理和判断来进行决策,但这些本身就包含获胜的概率。人类总结出的棋理,本就是获胜概率最高(人的判断)的下法。至于目数的赚和损,只是一些同质化的判断方式。

如果棋理的获胜概率被证明不够高,说明棋理不够好,人家的棋理本身就是在不断革新,逼近最优解的,所以一些所谓电脑不看棋理的说法其实没有意义,选择最优的规律,本身就是理,人将之用人类可以理解的方式解释出来,就成了棋理。只不过人类对围棋规律的发掘还不够深,我们并不是所有的一切认识都是对的。

简单一句话吧,不同地方太多了,但客观讲,程序下的有道理,人应该好好分析学习,当然,程序下的还不是完美的围棋,批判着学吧。(鲍云观点)

读者提问:

“人们一直觉得围棋太复杂,计算机无法驾驭,结果忽然发现自己才是那个无法驾驭它的。”怎么看?

李理:我觉得是有一定道理的,其实以后人类也可以利用计算机来帮助训练棋感,从而离最优走法更近一步。现在中国象棋很多职业选手就利用了计算机来”做功课“,开发一些之前认为”不好“的走法。

我觉得人类应该要勇敢的承认自己的不足,然后利用自己的优势。而不是一定要跟机器比计算。用中国古代的观点,就是天人合一,人本身也是宇宙的一部分。

高飞龙:我一直以来的观点都可以解释。远在AlphaGo面试之前:

围棋的规律是客观存在的,人类更像是“发现”了围棋而不是“创造”了围棋,所以人类围棋的发展史就是不断逼近最优解,不断发现逼近最优解的“规律”的历史。

一代又一代顶尖棋手,不断的提高人类围棋水平的峰值,就是这么一个过程。

也因此,很多外行问棋手,历史上的某某和某某谁更强的类似问题,大家都会回答,后面的更强(一般都是)。

现在我们的计算工具已经如此发达,达到或超过了人类顶峰的水平,将来我们可以借助工具,更好的探索围棋规律,也因此,我个人很希望将来可以有一两台训练好的围棋程序供大家来学习(虽然我知道谷歌和脸书都是降维打击,志在人工智能而非志在围棋)。

高飞龙:至于一些各个角度进行嘲讽的声音,我认为口水终将湮没在历史的尘埃中。

AlphaGo虽然赢了,但是它又有什么弱点呢?

高飞龙:概率导向导致它可能不选择最优,所以局部变化可能出“错”,当然这两盘棋里,ag出现这种下法都是在赢定的情况下才下的,所以对人类来说没有意义,人类无法利用这些“错”获胜。

这种类似人类的“损目换缩小棋盘”的下法,需要强大的控制力,而它正显示了自己的控制力。

而前半盘,它的概率判断也同样可能有问题,但现在来看,似乎不见得比人类顶峰差,甚至更好~所以我想它的弱点,可能就在于它还不是“围棋上帝”。

(这对于被甩在身后的我们来说,似乎不像是弱点)随着它的变强,人类顶峰利用这些缝隙获胜的机会或越来越小,大致如此。 


本文作者:吴德新

本文转自雷锋网禁止二次转载,原文链接

上一篇:搜索引擎新架构:与SQL不得不说的故事


下一篇:联系我们