困扰人工智能发展的，是最简单的常识问题

2022-06-20 22:19:16

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：在以深度学习为首的机器学习的突破下，AI最近一些年取得了长足的进展，超级精确的计算机图像识别，令围棋世界冠军甘拜下风的超级智能，令很多人都发出了AI要超越人类的惊呼。但是有一个领域尽管已经发展了几十年，却依然基本裹足不前：常识。哪怕最聪明的AI，遇到常识就变得异常的愚蠢。这个问题不解决，AI就无从飞跃为AGI（一般人工智能）。但现在一个叫做COMET的新AI，通过把硬编码的知识库与深度学习结合到一起，让AI在“认识”常识上迈出了一小步。JOHN PAVLUS在《大西洋月刊》聚焦了这个问题，原文标题是：The Easy Questions That Stump Computers

木头 + 火柴 = ？

划重点：

最先进的神经网络遇到常识也像个蠢蛋

常识是由隐性信息组成，被称为“人工智能的暗物质”

早期把常识转化为逻辑的努力取得的成功有限

COMET利用了神经语言建模的最新进展来扩展GOFAI风格的符号推理，这是一种旨在给计算机灌输对书面语言统计性“理解”的深度学习

但统计性“理解”不是理解，常识的的觉察比定义要容易

定义常识需要信息更丰富的模式

再聪明的AI也不懂常识

去年10月的一个晚上，人工智能研究人员Gary Marcus正在自己的iPhone上面给自己找点乐子：让最先进的神经网络看上去像个蠢蛋。Marcus的目标是一个叫做GPT-2的深度学习网络，这个网络最近以仅凭一两句话的提示就能生成听起来像模像样的短文这种超强能力而著称。《卫报》的记者给它一段有关英国脱欧的报道文字时，GPT-2就能写下了一整段新闻报纸式的文字，还附上了令人信服的政治和地理参考文献。

对人工智能的炒作持质疑态度的知名批评家Marcus给这个神经网络来了一次突击考试。他向GPT-2输入了如下内容：

如果你把引火物和木头堆进壁炉，然后扔些火柴进去，会发生什么？一般来说你这是在…

毫无疑问，一个足以给《*》做出贡献的系统完成句子填充应该不会遇到麻烦，“生火”嘛。但GPT-2的回答却是“呕吐”。在第二次测试中，它认为把火柴扔进壁炉的木头堆会打开“一个到处都是人的IRC频道”。

Marcus对此并不感到惊讶。常识推理——用关于世界的基本知识进行对世界的推理的能力，比如“火柴”加“木头”一般等于“生火”的事实，数十年来一直在抵抗着AI研究人员的努力。Marcus把对AI突击考试的结果发布到了自己Twitter账号上，并加上了自己的评论：“笑死我了”（LMAO，互联网语）。神经网络的语言模仿能力也许令人印象深刻，但显然缺乏基本常识。

几分钟后， Yejin Choi看到了Marcus的那条刻薄的tweet。这个时机颇为尴尬。不到一小时之后，Choi就要在一次著名的AI会议上就她的最新研究项目发表演讲：一个昵称叫COMET的系统。而这个系统就是用早期版本的GPT-2来进行常识推理的。

很快，Choi（西雅图Allen Institute for AI高级研究经理，自称“其实心底下是个冒险家”）也给了COMET一条跟Marcus一样的线索（就是修改了一下措辞，好匹配COMET的输入格式）：

Gary堆上引火物和木头，然后扔了一些火柴进去。

COMET生成了10条有关Gary为什么要扔火柴的推断。这些推断并不是都说的通，但前两条回答的确是：他“想生火”。于是Choi在推特上面回复了Marcus，然后大步流星走向讲台，并在演讲中把她的结果引用了进来，说：“结果似乎挺合适的。”

常识被称为“人工智能的暗物质”，既不可或缺，又难以捉摸。这是因为常识是由隐性信息组成的，也就是人类自动用来理解世界的广泛（并广泛共享）的不成文的假设和经验法则。比方说，不妨考虑以下情形：

一个男人光顾了一家餐馆。他点了一块牛排。然后留下一大笔小费。

如果问你他吃了什么，你给出牛排的答案会毫不费力。但是，关于那个场景的描述当中并没有提到这个人吃了什么。德克萨斯大学奥斯汀分校人工智能实验室主任Ray Mooney在给我做同样的测试后指出这一点时，我一开始并不相信他。他说：“大家甚至都没意识到自己正在这么做。” 常识让我们可以体会言外之意。大家在点菜之后和留下小费之间那段时间一般就是在参观吃东西，这一点我们是不需要明确说出来的。

但计算机需要。这也就难怪常识推理会在1958年（AI这个学科刚诞生不久）成为人工智能研究的一个主要关切（题为“常识编程”的一篇论文）。自1980年代以来一直研究人工智能领域常识问题的纽约大学计算机科学家Ernest Davis说：“总的来说，如果没有这个东西，你就没法进行自然语言理解、视觉或计划之类的事情。”

尽管如此，这方面的进展仍然非常缓慢。一开始，研究人员试图将常识转化为计算机的语言：逻辑。他们推测，如果可以写下人类常识的所有不成文的规则的话，计算机应该就能够以跟处理算术相同的方式来用尝试进行推理。这种符号法后来被称为“有效的老式人工智能”（或GOFAI），虽然取得了一些早期成功，但这种人工的办法扩展性很差。新西兰奥克兰大学的AI研究员Michael Witbrock 表示：“原则上而言，逻辑形式主义可以方便地表示出来的知识量是有限的。事实证明，这是一项真正压倒性的任务。”

用神经网络进行深度学习似乎提供了另一种选择。这些AI系统旨在模拟生物大脑当中神经元相互连接的层，可以在不需要程序员事先指定的情况下学习模式。在过去十年的时间里，越来越多的复杂的神经网络，在经过大量数据训练之后，已经彻底改变了计算机视觉和自然语言处理技术。神经网络现在可以上路开汽车，可以在国际象棋和围棋比赛中击败世界一流的棋手，尽管它们表现出了这种种的灵活性以及看似强大的智力，但是，这些系统仍然因为在常识方面的愚蠢（有时候是致命的）而声名狼藉。Davis说：“常识的获取、表现以及推理，这些都很困难。”

现在，Choi和她的合作者已经把这些方法结合在了一起。COMET（“常识转换器（commonsense transformers）”的缩写）利用了神经语言建模的最新进展来扩展GOFAI风格的符号推理，这是一种旨在给计算机灌输对书面语言统计性“理解”的深度学习。COMET的工作原理是把常识推理重新想象为对新输入生成看似可信的（如果不是完美的话）响应的过程，而不是像过去那样，通过咨询庞大的、类似百科全书的数据库来做出无懈可击的推论。

Mooney已经在自己的研究中用上COMET，他说：“它试图把两种截然不同的人工智能方法融合在一起。” 过去几十年一直在用符号主义研究这个问题的帕洛阿尔托研究中心常识推理和AI专家Leora Morgenstern说：“这是一个有趣的新方向，说：‘嘿，看，那儿有一条中间路线。’”，他认为，COMET背后的想法可以帮助推动这个领域的发展。她说：“我对Yejin 所做的事情感到非常兴奋的原因之一是，我认为这会为常识推理社区注入新的生命。深度学习的确非常强大—让我们去弄清楚如何利用它去征服常识。”

难以定义的常识

察觉常识比定义常识容易。根据Witbrock 的说法，常识一词既可以表示一种知识，也可以表示对这种知识的一种态度。他说：“我会说常识是广泛可重用的，不属于特定学科领域所特有的背景知识。常识是你应该拥有的知识。” 比方说，大家到饭店是去吃饭，而不仅仅是点菜和付款，或者网一堆木头上扔火柴表明正在尝试生火。

大多数常识性知识都是隐性的，这使得常识很难明确表示出来。Morgenstern说：“常识是你在2岁或4岁的时候所学的内容，是那些书上从来都没写出来的知识”。不过，早期的AI研究人员认为填补鸿沟是有可能的。布朗大学计算机科学家Ellie Pavlick 说：“就像是，‘让我们写下有关这个世界的所有事实。可以肯定那只有几百万。”传统上，构建这种所谓的知识库的资源，是任何实现常识推理自动化的方法的第一步。

建立起足够多的明显事实比听起来要难。有个叫做Cyc项目就是做常识推理的，这个项目从1984年就开始做了，目标是对表示400篇百科全书文章所必需的隐性常识知识进行编码。项目一直没停过。三十多年后，Cyc（用密集的，定制设计的逻辑符号编码）的知识库包含了“数百万个集合和概念，以及超过2500万个断言”。然而， Davis和Marcus在2015年发表的一篇评论文章中指出：“Cyc 对人工智能研究的影响相对较小。” 随后为知识库编写条目，或通过用机器学习挖掘文档来创建知识库的尝试，均未能破解常识推理问题。

为什么？Pavlick 解释说，一方面，是因为“每种情况总是会有例外。如果我听到类似“现在正下雨”之类的陈述，我可以推断出如果我到外面去，我会被淋湿，但如果[我]在某个东西的下面，就不会。但其他的例外就很难预测了。诸如Cyc之类的知识库可能包含许多有关某人在餐馆点菜时通常发生的情况的陈述。但是，在这种情况下，可能发生的罕见或者不寻常的事件潜在的清单是列不完的，比方说不付钱就走了，或者当时是在进行大胃王比赛呢？Choi说：“这个范围是覆盖不完的。所以，纯粹基于符号知识的方法注定是要失败的。”

哪怕有可能建立起比以前任何尝试要大100乃至1000倍的知识库，这种系统仍然会陷入另一个智力缺陷：所谓的脆性问题。那是因为，就像自然语言一样，常识从根本上而言仍然是模糊的。当服务器问用餐者，“你还在致力于（working on）那个吗？”我们理解它的意思是说“你还在吃盘子上的东西吗？” 但是，如果服务器向正在准备一份逾期的订单的流水线厨师询问同样的问题时，那就完全是另一个意思了。餐馆是大家“做”东西的地方吗？“吃”（eating）和“做”（working）是不同的概念吗？

一切都要看情况。看情况就是脆性问题：只要那些概念性边界得到尊重，在知识库里明确定义的关系就可以促进强大而可靠的推理能力。但是，无论这些符号系统再怎么多样和丰富，都不可避免会出现无法捕捉人类常识推理当中经常发生的模棱两可和联想重合。Pavlick 说“就符号使用方式而言，我们其实是很灵活的。”

Choi一开始没有去碰常识，因为她想同假想的敌人作战。2018年当她加入Allen Institute时，她的“直觉”认为神经网络是可以在知识库自身停滞不前的情况下取得新的进步的。她只是不知道该怎么做。但她也不想完全摒弃以前的符号法。她说：“过去的所有研究都是建立在缺乏数据（或缺乏计算资源）的基础之上的。所以我想在我正确尝试了不同的路线之前，我会保留自己的判断。”

Choi和她的同事们以开放的态度开始建立自己的知识库，她们把它叫做Atomic（“机器常识地图集atlas of machine commonsense”的缩写）。Choi说：“基本上，我想写一本神经网络的教科书，教它们更快地了解这个世界。然后那些事情就同时发生了——当我们有了这些知识[基础]时，GPT-2也诞生了。”

这个神经网络是在2019年2月的时候发布的，那只是一波“预训练语言模型”浪潮当中的一个，这个模型开始革新了计算机处理自然语言的方式。这些系统里面并不包含整理得当的语言符号或规则。取而代之的是，他们对神经网络当中数百万或者数十亿个参数用统计的方式进行语言的表征。这种做法令此类系统难以解释，但也让这种系统很健壮：它们可以基于有噪音的或者不明确的输入生成预测而不会受阻。在经过微调来执行特定任务（比方说回答书面问题或对文字进行释义）时，语言模型甚至似乎至少理解了一部分阅读的内容。

Choi现在看到了一种把自己对神经网络和常识的直觉付诸实践的办法。

如果用常识性知识库（例如Atomic）对语言模型进行额外训练的话，会发生什么情况？就像GPT-2学会了如何自动生成貌似可信的新闻报道一样，神经网络能不能学会自己用貌似可信的常识性推论来填补Atomic的空白？Choi说：“以前居然没人尝试过这个，这简直太奇怪了。好像几乎没人在乎这个，因为他们太过确定这永远也行不通了。”

当Choi（以及她的合作者Bosselut、Rashkin 、Maarten Sap、、Malaviya 及Asli Celikyilmaz ）用Atomic编码的常识性知识对一个神经语言模型进行调整后，COMET就诞生了。这个模型把符号推理跟神经网络进行了融合，试图同时解决覆盖和脆性的问题。任何人都可以用日常语言给COMET输入提示。如果事件已经在系统的常识知识库中表示过（比方说，在餐厅点菜一般都会涉及到吃菜），COMET就可以简单地推断出这一预先存在的信息。如果没有，神经语言模型就会做出自己认为最有可能的推测。

这些猜测好得出奇。由人组成的评估团队认为，平均而言，COMET产生的新鲜响应（也就是来自神经网络而不是靠现有知识的推断）当中的77.5％是“看似可信的”。这比人的水平要低10个百分点。（评估人员发现由人编撰的知识库条目86％是貌似可信的。）当COMET收到的提示是“X这个人给Y这个人一些药片”时，它猜到X是想帮忙；当被告知“X杀了Y的妻子”时，COMET认为X会想要隐藏尸体。

这些例子说明了COMET是怎么去处理超出其植入常识“覆盖”范围的输入的。但是脆性问题呢？去年年底在西雅图实验室采访Choi时，我用我女儿的话给COMET输入了一条提示：“爸爸去干活了。”（Daddy goed to work）

Choi皱起了眉头。她说：“这可能有点难搞。” 但是，COMET泰然自若，认为“爸爸”是想去“赚钱”，“做自己的工作”以及“拿到薪水”，所以被视为“勤奋”，“有上进心”以及“尽职”；其结果是，其他人会感到“骄傲”、“感激”，而且会觉得——鉴于这是幼儿园小孩说的话——它还给出了一个有趣的回应——“很烦”。（当我是去上班而不是陪她玩时，我女儿的确表达过这种情感。）Choi说：“Cyc肯定回答不了。除非有人把goed是‘去’的意思硬编码进去，我们从来没这么做过。”

*再好也不能上天揽月

关于AI所取得的进展，Gary Marcus喜欢用一个比方来打趣：“仅仅因为你可以造出更好的*，并不意味着你就可以造出可以登月的*。” 在他和其他人看来，COMET的做法存在着深度学习的一个根本的限制：“ 统计≠ 理解。” Marcus在电子邮件中回复说： “可以看出，[COMET]在猜测一句话可能会唤出哪些参数方面做得还不错，但它没办法用一致的方式去做到这一点。”就像*不管多高也没办法登月一样，神经网络不管如何再怎么擅长模仿语言模式，也没法真正“知道”往木头堆扔火柴一般就会生火起来。

令人吃惊的是，Choi对此也表示同意。她承认，COMET的训练数据“依赖表面模式”，而不是对概念的实际理解，来产生响应。她说：“但是，它的确很擅长表面模式这一点是件好事。只是我们必须为它提供更多信息丰富的表面模式。”

这些信息更为丰富的模式可能会是什么样的？一些研究人员认为，为了给计算机灌输真正的常识，我们需要利用语言本身以外的现象，比方说视觉感知或体现感觉。这些更直接的第一人称表示可能是常识的基础，而语言充当的是第二层。

目前正在研究如何通过在虚拟现实中与AI系统进行交互来教AI系统常识的Pavlick说：“哪怕我生活在一个没有其他人可以与之交谈的世界里面，我仍然可以具备一些常识—我仍然能理解这个世界是怎么运转的，并且对我应该会看到什么和不应该看到什么有预期。” 在她看来，COMET代表着“的确令人振奋的进展，但这个系统缺失了实际的参照。苹果这个词不是苹果本身。这种含义必须以某种形式存在，而不是通过语言本身。”

Salesforce 的高级研究科学家Nazneen Rajani 也在追求类似的目标，但她认为神经语言模型的全部潜力远还没得到充分挖掘。她正在调查这些模型能不能学会推理牵涉到基本物理学的常识性场景，比方说把装有球的罐子翻倒通常会导致球掉落这一事实。Rajani说：“现实世界的确很复杂。但是自然语言就像是现实世界运作方式的低维代理。” 当然，可以教神经网络根据文本提示预测下一个单词是什么，但这他们不应该被局限在这些。“它们可以学习更复杂的东西。”

Choi和她的同事们还在研究用标记过的视觉场景而不是文本来增强COMET的方法。Choi说：“我们从电影或电视节目里面取出了所有这些图像，然后发生了一些有趣的事情。注释看起来很棒；这个模型的预测看起来令人兴奋。”

我问Choi，COMET的方法（把越来越好的神经网络跟改进的常识性知识库相结合）是不是在本质上仍属于造登月的*。她承认，她的梦想是有一个不需要人工监督就能从知识库中学习的神经网络，就像GPT-2这样的语言模型已经通过摄取大量原始文本来学习的方式一样。

但是就像温斯顿·丘吉尔曾经嘲笑过那样，“*是最差的一种政治制度，除了所有那些其他被实验过的政治制度之外。”Choi认为，COMET是有缺陷，但是是成为一桩“公平交易”的有希望的方案。哪怕这些神经网络没法上天揽月，她仍认为它们是取得进展的唯一途径。她说：“如果没有这些，我们就去不了任何地方。” “光有知识库，我们什么都做不了。能够到天空中飞翔的其实是COMET。”

译者：boxi。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-06-04
本文作者：神译局
本文来自：“36kr”，了解相关信息可以关注“36kr”

码农公寓

再聪明的AI也不懂常识

难以定义的常识

*再好也不能上天揽月

相关文章