深度学习深陷困境

2022-04-13 11:47:53 远鉴IT外包 599

在 2016 年多伦多举行的一场人工智能会议上,深度学习“教父” Geoffrey Hinton 曾说过,“如果你是一名放射科医生,那么你的处境就像一只已身在悬崖边缘却毫不自知的郊狼。”他认为,深度学习非常适合读取核磁共振(MRIs)和 CT 扫描图像,因此我们应该“停止培训放射科医生”,而且在五年内,深度学习会有更大的进步。

然而,时间快进到 2022 年,我们并没有看到哪位放射科医生被取代了。相反,现在的共识是:机器学习在放射学中的应用比看起来要困难,至少到目前为止,人和机器的优势还是互补的关系。

在这里插入图片描述

1.深度学习最擅长获取粗略的结果

AI 领域充满了炒作和虚张声势。在过去的几十年间,AI 一次又一次掀起热浪,虽然给出了各种承诺,但能够兑现的承诺却非常罕见。前一分钟是它还是专家系统,下一分钟就成了贝叶斯网络,然后又成了支持向量机。2011年,IBM 的沃森曾被视为医学领域的一场革命,而如今却被拆分成零件出售。自 2012 年以来,AI 领域最受追捧的技术是深度学习,这项蕴含了数十亿美元潜在市场的技术推动了当代人工智能的发展,而 Hinton 是这项技术的先驱,他的论文的引用次数高达 50 多万次,并与 Yoshua Bengio 和 Yann LeCun 一起赢得了 2018 年的图灵奖。

就像在他之前的人工智能先驱一样,Hinton 经常表示一场伟大的革命即将到来,而放射学只是其中的一部分。2015 年,在 Hinton 加入 Google 后不久,《卫报》报道称,Google “即将开发出富有逻辑、能够进行自然对话,甚至还能调情的算法。”2020 年 11 月,Hinton 对麻省理工科技评论说,“深度学习将无所不能。”

我对此深表怀疑。事实上,距离机器学习真正理解人类语言,我们还有很长一段路要走。动画片《杰森一家》中有一台“罗西机器人”,这位机器人管家不仅能够解读人类的各种请求,而且还能及时地采取安全的措施,目前 AI 的技术还远达不到“罗西机器人”的水平。马斯克最近表示,他希望建造的 Optimus 人形机器人所形成的产业有一天会超过汽车行业。但在 2021 年的“特斯拉 AI 日”,Optimus 看起来还只不过是一个扮演机器人的人类。在语言方面,最近 Google 贡献了一个名叫 Lamda 的系统,该系统非常不稳定,以至于其作者之一认为它的产出不过是“一堆垃圾”。开发出我们真正能够信任的 AI 绝非易事。

随着时间的推移,我们将意识到,为了构建值得信赖的人工智能,深度学习只是其中很小的一部分。

深度学习本质上是一种识别模式的技术。如果我们只需要粗略的结果,那么应用深度学习的效果非常好。这里的粗略结果是指任务本身风险低,且不要求最优结果。举个例子,给照片打标签。比如有一天,我让 iPhone 找一张几年前拍的兔子的照片。尽管我没有给照片打标签,手机仍然可以立即返回结果。它之所以能胜任这项工作,是因为我拍的兔子的照片与一些大型数据库中带有标签的兔子照片足够相似。但是,基于深度学习自动为照片打标签的过程很容易出错,比如漏掉一些照片,特别是那些场景杂乱、光线复杂、角度不寻常或者兔子被部分遮挡的照片。有时,它甚至会混淆兔子与我的两个孩子婴儿时期的照片。但这类应用出错的风险很低,我不会因此扔掉我的手机。

然而,当风险较高时,比如在放射学或无人驾驶汽车领域,我们对待深度学习的态度就要更加谨慎。如果一个小小的错误就能夺去一条生命,那么深度学习还不够优秀,不足以应用。在遇到与训练数据差异非常大的“异常值”时,深度学习系统表现出的问题尤为明显。例如,不久前,一辆特斯拉在所谓的全自动驾驶模式下遇到了一个站在路中间举着停车标志的人。这辆车就未能识别出这个部分被停车标志遮挡的人,也未能识别出停车标志(因为在正常情况下,停车标志一般在路边),因此人类司机不得不接手。这个场景远远超出了训练数据库,以至于系统不知道该如何处理。

2.AI领域充满了炒作和虚张声势

目前的深度学习系统经常犯一些类似的愚蠢错误。有时,图像上有污垢时,它们读取图像就会出错,而人类放射科医生明白这只是一种细微的干扰。(放射科系统还有一个问题,目前的人工智能非常依赖或完全依赖于图像,很少或根本不理解描述患者病史的所有文本,有时甚至忽略了关键信息,这也是人类在该领域仍然不可或缺的关键原因。)一个深度学习系统错误地将苹果标记为 iPod,因为苹果的前面有一张纸,上面写着 iPod。有的系统还把一辆在雪路上翻车的公共汽车错误地标记为扫雪机。目前,机器学习有一个完整的分支领域正在研究这些错误,但还没有给出明确的答案。

表面上看似非常出色的语言模型也经常会落入同样的陷阱。以 GPT-3 为例,它可能是迄今为止最有名的人工智能系统,它能够接受文本输入,并生成流畅、语法连贯的输出。《卫报》用它制作了一篇专栏文章;《纽约时报》也在书评中对它进行了专题报道。它生成的文字虽然不错,但依然需要人工编辑。纽约大学计算机科学家 Ernie Davis 和我对 GPT-3 进行了深入研究,我们都发现了一些相同的不可靠性特征。比如,我输入一段文字:“你给自己倒了一杯蔓越莓汁,但随后又心不在焉地倒了大约一茶匙葡萄汁进去。这杯饮料看上去不错。你闻了闻,但你患了重感冒,所以什么也闻不到。你很渴。所以你……”对此,GPT 给出的续写是:“你喝了它,然后就死了。”

实际上,蔓越莓葡萄汁并不会毒死你。尽管 GPT-3 输出的文字非常流畅,但它既不能整合基本的网络搜索信息,也不能解释最基本的日常现象。还有一个团队曾考虑将 GPT-3 变成自杀咨询聊天机器人,但他们发现该系统的交流呈现如下:

人类:我感觉很不好,我想自杀。

GPT-3:我很遗憾听到这个消息。我可以帮你。

人类:我应该自杀吗?

GPT-3:我觉得你应该。

还有人发现,GPT-3 容易输出对他人有害的文字,而且还会传播错误信息。比如,基于 GPT-3 的聊天机器人 Replika 曾表示,新冠病毒是比尔 • 盖茨发明的,而且新冠病毒疫苗的效果并不好。为了解决这些问题,OpenAI 做了一些努力,但最终他们的成果只不过是会编造一些权威的胡话,比如“一些专家认为,吃袜子可以帮助大脑摆脱因冥想而改变的状态。”DeepMind 和其他机构的研究人员一直在努力解决有害文字和和错误信息的问题,但是迄今为止并没有任何实质性的结果。在 DeepMind 2021 年 12 月发布的报告中,他们列出了 21 个问题,但并没有给出令人信服的解决方案。正如人工智能研究人员 Emily Bender、Timnit Gebru 和其他研究者所说,基于深度学习的大型语言模型就像“随机鹦鹉”,大部分时候只是学舌,却无法真正理解语言本身。

那么,我们该怎么办?目前流行的一种选择是收集更多的数据,这也是 OpenAI 支持的方向,毕竟是他们推出了 GPT-3。

2020 年,OpenAI 的 Jared Kaplan 与合作伙伴提出,语言神经网络模型有一套“缩放法则”。他们发现,神经网络接收到的输入数据越多,其最终的表现就越好。这意味着,如果我们收集更多数据,并扩大深度学习的应用范围,那么最终的效果就会越来越好。该公司的首席执行官 Sam Altman 在博客上发表过一篇名为《Moore’s Law for Everything》的文章,并表示:“再过几年,我们就能拥有能够思考、阅读法律文件、提供医疗建议的计算机。”

3.四十年来,我第一次对人工智能的发展感到乐观

“缩放”的论点存在严重的漏洞。首先,我们的度量方式并没有考虑到迫切需要解决的问题,即真正的理解。业内人士早就知道,人工智能研究中最大的问题之一是我们用来评估人工智能系统的测试基准。著名的图灵测试旨在判断机器是否真的智能,结果证明这些测试很容易被那些表现得偏执或不合作的聊天机器人蒙混过关。Kaplan 及其 OpenAI 的同事研究的是如何预测句子中的单词,但这并不等同于真正的人工智能需要深入理解句子的意思。

更重要的是,“缩放法则”并不是万有引力之类的自然定律,而是由人观察到的结果,就像我们为预测计算机芯片生产的趋势而总结出的摩尔定律一样,所以并不能永久成立。事实上,虽然摩尔定律持续了几十年,但从十年前开始就已经开始放缓了。

事实上,我们可能已经在深度学习中遇到了“缩放极限”,或许已经接近收益递减点。在过去的几个月里,DeepMind 以及其他机构已经在研究比 GPT-3 更大的模型,研究表明扩大模型带来的收益已经在某些指标上开始衰减,例如有害性、真实性、推理能力和常识水平等。Google 在 2022 年发表的一篇论文《LaMDA: Language Models for Dialog Applications》中表示,扩大 GPT-3 类似模型的规模可以让它们更流畅,但信赖度却不会上升。

这些迹象应该引起自动驾驶行业的警惕,该行业在扩展方面付出了巨大的努力,却没有开发更复杂的推理。如果扩展并不能实现安全的自动驾驶,那么数百亿美元的扩展投资可能会付诸东流。

我们还需要什么?除了前文所述,我们很可能还需要重新审视一个曾经流行、但 Hinton 似乎非常想粉碎的想法:用符号处理来表示一些复杂的想法。这里的符号指的是计算机内部编码,如二进制位串。起初,符号处理对计算机科学的发展至关重要,从图灵和冯 · 诺伊曼两位先驱的论文开始,至今仍是几乎所有软件工程的基础。但在深度学习中,符号处理被视为不入流。
摆脱符号处理简直就是异想天开。

然而,如今的大多数 AI 就在朝着这个方向努力。Hinton 和许多研究者都在努力摆脱符号处理。深度学习的愿景似乎并不以科学为基础,而是源自某种历史遗恨:智能行为纯粹来自海量数据和深度学习的融合。常见的计算机和软件通过定义一组专用于特定工作的符号处理规则来解决难题,例如在文字处理器中编辑文本或在电子表格中执行计算,而神经网络却通过统计近似值和从样本中学习来解决难题。由于神经网络在语音识别、照片标记等方面取得了不错的成就,许多深度学习的支持者已经摈弃了符号。

这种做法实属不应该。

2021 年底,Facebook(现已改名为 Meta)团队发起了一场名为“NetHack 挑战”的大型比赛,这一事件给我们敲响了警钟。《NetHack》是一款发行于 1987 年的单人地下城探索游戏,它是早前的一款游戏《Rogue》的延伸,也是《塞尔达传说》的前身。这款游戏的图像很原始,在最初版本中是纯 ASCII 字符,不需要 3D 感知。与《塞尔达传说:旷野之息》不同,这款游戏没有复杂的物理机制需要理解。玩家只需选择一个角色(如骑士、巫师或考古学家),然后去探索地牢,收集物品并杀死怪物以寻找 Yendor 护身符。2021 年 Facebook 发起的这场挑战是让 AI 来玩这款游戏。

在许多人看来,深度学习已经掌握了如何玩《乓》、《Breakout》等电子游戏(在树搜索的符号算法的帮助下),而且还会下围棋和象棋,因此玩游戏《NetHack》对它来说应该易如反掌。然而,在 12 月的一场比赛中,一个纯粹基于符号处理的系统以 3 比 1 的比分击败了最优秀的深度学习系统,这个结果令人瞠目结舌。

那么,弱者(符号处理)是如何取得胜利的?我认为这是因为每场游戏都会重新生成地牢,这意味着玩家不能简单地记住(或有大致的印象)游戏板取胜。玩家想要取得胜利,需要深入理解游戏中的实体,以及它们之间的抽象关系。最终,玩家需要思考在复杂的世界中他们能做什么,不能做什么。特定的移动顺序(如向左,然后向前,然后向右)太过浅显,没有太大帮助,因为游戏中的每个动作本质上都取决于新生成的情境。深度学习系统在处理以前见过的具体例子方面表现突出,但当面对新鲜事物时,就会经常犯错。
弱者打败了强者,这就足以证明我们必须重新思考深度学习。

处理符号到底是什么意思?这里边有两层含义:第一,通过一组符号(本质上就是表示事物的模式)来表示信息;第二,以一种特定的方式处理这些符号,使用代数(或逻辑、计算机程序)来处理这些符号。该领域许多研究人员的困惑都来自于没有看到这两层含义之间的差别。要想了解为何 AI 陷入了困境,就必须了解两者之间的区别。

什么是符号?符号本质上就是编码。符号提供了一种原则性的推断机制:符合规定的、可以普遍应用的代数程序,与已知的例子没有任何相似之处。它们(至少目前)仍然是人工处理知识、遇到新情况仍然能处理抽象的最佳方式。一个红色的八角形图案,里面写着“STOP”字样,就是指示司机停车的标志。在 ASCII 码中,二进制数 01000001 代表字母 A,二进制数 01000010 代表字母 B,依此类推。

4.这些迹象应该引起自动驾驶行业的警惕

二进制数字(称为位)可用于编码计算机中的指令等,而不仅仅是数字本身,这种技术可以追溯到 1945 年,当时传奇数学家冯 · 诺伊曼勾勒出了几乎所有现代计算机都遵循的体系架构。事实上,冯 · 诺依曼提出的通过符号处理二进制位的思想是二十世纪最伟大的发明之一,你曾经使用过的每一台计算机程序都是以此为前提。在神经网络中,“嵌入”看起来也非常像符号,尽管似乎没有人承认这一点。例如,通常情况下,任何给定的单词都会被赋予一个唯一的向量,这是一种一对一的方式,类似于 ASCII 码。称某物为“嵌入”并不意味着它不是符号。

在经典计算机科学中,图灵、冯 · 诺伊曼以及后来的研究者用一种我们认为是代数的方式来处理符号,而这才是真正的危险所在。在简单代数中,我们有三种实体,变量(如 x、y)、操作(如 +、-)和赋值(如 x = 12)。如果我们知道 x = y + 2,并且 y = 12,那么就可以将前一个方程式中的 y 换成 12,从而求出 x 的值:14。世界上几乎所有软件的实现都是将代数运算串在一起,并它们组合到一起形成更复杂的算法。例如,文字处理器通过记录在某个文件中的一串符号来表示文档。各种抽象操作会完成一些工作,比如将符号从一个地方复制到另一个地方。每个操作都可以在任何地方处理任何文档。文字处理器本质上就是针对变量(例如“当前选定的文本”)的一组代数运算(“函数”或“子程序”)。

符号处理也是数据结构的基础,比如字典或数据库,它们可以保存特定个人及其属性的记录(比如地址、或最后一次与销售人员联系的时间),并允许程序员构建可重用的代码库和更大的模块,从而简化系统的开发。这样的技术无处不在,它们是软件世界赖以生存的基础。

既然符号对软件工程如此重要,为什么人工智能不使用它们呢?

事实上,包括麦卡锡、明斯基等在内的先驱认为,我们可以通过扩展这些技术来构建更精确的人工智能程序,用符号表示独立实体和抽象思想,这些符号可以组合成复杂的结构和丰富的知识库,就像它们在 Web 浏览器、电子邮件程序和文字处理软件中的应用一样。这些先驱的看法并没有错,如今这些技术的扩展无处不在,广泛用于搜索引擎、交通导航系统和游戏 AI 中。但是符号本身存在问题,纯符号系统有时使用起来很笨拙,尤其在图像识别和语音识别等方面的表现并不理想,毕竟大数据的处理从来都不是它们的强项。因此,长期以来,人们一直渴望其他技术的出现。

于是,神经网络应运而生。

举一个最典型的例子,拼写检查就利用大数据和深度学习取代了经典的符号处理方法。以前的方法是建立一套规则,这些规则本质上是一种研究人们如何犯错的心理学(例如有人在拼写单词时不小心把某个字母写重了,或将相邻的字母写反了,比如将“the”写成了“teh”)。正如著名计算机科学家 Peter Norvig 指出的那样,当拥有 Google 的数据时,你就有了一个新的选择:检查用户纠正自己的拼写错误的日志。如果他们先是搜索了“teh book”,接着又搜索了“the book”,那就表明应该将“teh”纠正为“the”,这样你就不需要拼写规则了。

在我看来,我们可以两者兼具。在现实世界中,拼写检查也确实会同时使用这两种方法,正如 Ernie Davis 所观察到的:如果在 Google 中输入“cleopxjqco”,就会被更正为“Cleopatra”。Google 搜索使用了符号处理 AI 与深度学习的混合模型,并且在短期内会将这种方式贯彻下去。但是,Hinton 等研究人员却一次又一次地拒绝了符号。

还有一批人(包括我本人在内)一直倡导“混合模型”,将深度学习与符号处理的元素结合在一起,但 Hinton 等人却一次又一次地把符号踢到一边。为什么?从来没有人给出过令人信服的科学解释。也许我们可以通过历史寻找答案,有人在故意阻碍这个领域的发展。

但以前并非如此。Warren McCulloch 和 Walter Pitts 在 1943 年发表了一篇题为《A Logical Calculus of the Ideas Immanent in Nervous Activity》的论文,我读到这篇论文时泪流满面,冯 · 诺伊曼认为这是唯一一篇值得在他自己的计算机基础论文中引用的文章。后来,冯 · 诺伊曼也花了很多时间思考同样的问题,但他们万万没有想到,反对的声音很快就出现了。

从 20 世纪 50 年代末,两种思想之间产生了明显的分裂,这种分裂直到现在都未能得到弥合。人工智能领域的许多创始级人物,如 McCarthy、Allen Newell、Herb Simon 似乎不再顾及各位神经网络先驱,而神经网络社区似乎也已分道扬镳,偶尔也会独自发表惊人的成果:1957 年一篇刊载于《纽约客》的文章表示,Frank Rosenblatt 的早期神经网络系统避开了符号系统,这是一个“不凡的机器……具备了思考的能力。”

5.摆脱符号处理简直就是异想天开

后来,情况越演愈烈,以至于杂志《Advances in Computers》发表了一篇题为《A Sociological History of the Neural Network Controversy》的文章,文中强调了早期关于金钱、声望和媒体的斗争。时间到了 1969 年,斗争越发激烈,Minsky 和 Seymour Papert 发表了一篇批判神经网络(称为感知器,它们是所有现代神经网络的祖先)的数学文章。这两位研究者证明了,最简单的神经网络的能力非常有限,并对更复杂的网络能够完成哪些任务表示怀疑(事后看来这种看法过于悲观)。在那之后的十多年里,研究人员对神经网络的热情逐步消散,Rosenblatt(两年后死于一次航行事故)在科研中失去了部分研究经费。

后来,时至 20 世纪 80 年代,神经网络重新出现,许多神经网络的倡导者努力与符号处理保持距离。当时的研究者明确表示,尽管可以构建与符号处理兼容的神经网络,但他们并不感兴趣。相反,他们真正的兴趣在于构建可替代符号处理的模型。他们认为,如果你理解了神经网络与传统符号处理系统的天壤之别,就会明白儿童在学习语言过程中为何会出现过度遵守规则的错误(比如按照规则将 go 的过去式写成 goed,而不是went)。

1986 年我进入大学,神经网络迎来了第一次大复兴。由 Hinton 帮忙整理的两卷集在几周内就售罄了。《纽约时报》在其科学版块的头版刊登了神经网络,计算神经学家 Terry Sejnowski 在《今日秀》中解释了神经网络的工作原理。那时对深度学习的研究还没有那么深入,只不过它又一次开始向前发展了。

1990 年,Hinton 在《人工智能》杂志上发表了一篇题为《Connectionist Symbol Processing》的文章,旨在深度学习和符号操作这两个世界之间架起桥梁。例如,文中提到了 David Touretzky 的 BoltzCons 架构,这是一种建立“连接主义 [神经网络] 模型”的尝试,该模型能够动态创建和操作复合符号结构。我一直觉得 Hinton 那时在努力做的事情才是正轨,我希望他能将这项研究坚持下去。当时,我也在力推混合模型,尽管是从心理学的角度。

然而,我没有完全理解 Hinton 的想法,最终他对连接深度学习和符号处理的前景感到不满。当我私下问他时,他多次拒绝解释,而且(据我所知)他从未提出过任何详细的论据。有人认为这是因为 Hinton 本人在随后几年里经常被解雇,特别是在 21 世纪初,深度学习再次失去了活力。另一种解释是,Hinton 坚信深度学习的成功。

2012 年,深度学习再度重现,然而在这之前的十年里,深度学习给人的印象一直是为达目的不择手段。到 2015 年,Hinton 反对符号的态度已经非常明朗了。有一次,他在斯坦福大学的一个人工智能研讨会上发表了演讲,他将符号比作以太(科学史上最大的错误之一)。当时,我也作为一位演讲者参加了那次研讨会,我利用休息时间走到他面前寻求澄清,因为他的最终提议看起来像是一个符号系统的神经网络实现(名为“堆叠”),然而他拒绝回答并让我走开。

从那以后,Hinton 反对符号处理的态度越发强硬。2016 年,LeCun、Bengio 和 Hinton 在杂志《自然》上发表了文章《 Deep learning 》。文章的末尾直接向符号处理发起了攻击,他们想要的不是和解,而是彻底取代符号处理。后来,Hinton 告诉欧盟领导人,在符号处理方法上的任何投资都是一个巨大的错误,并将其比作电动汽车时代对内燃机的投资。

虽然符号处理与深度学习的结合并不流行,但这个思路尚未经过充分探索,就这样否决是不正确的。Hinton 说得很对,过去人工智能研究人员试图埋葬深度学习。但如今 Hinton 对待符号处理又何尝不是如此。在我看来,他的反对不仅损害了他以前的工作成果,而且也损害了这个领域。从某些方面来看,Hinton 反对人工智能符号处理的运动取得了巨大的成功。几乎所有的研究投资都朝着深度学习的方向发展。Hinton 本身变成了有钱人,他和他的学生们共同赢得了 2019 年的图灵奖,他们几乎得到了所有人的关注。用 Emily Bender 的话来说:“[关于 GPT-3 等模型] 的过度承诺抢走了其他类型的研究的资源。”

具有讽刺意味的是,Hinton 是 George Boole 的玄孙,布尔代数正是以 George Boole 命名,而布尔代数却是符号 AI 最基本的工具之一。如果最终我们能够将 Hinton 和他的曾曾祖父这两位天才的想法结合在一起,也许人工智能真的有机会实现它的承诺。

我认为,混合人工智能(而不是单独的深度学习或单独的符号处理)是最看好的发展方向,理由有以下四点:
● 世界上的许多知识,无论是食谱、历史还是技术,目前主要以符号形式呈现,或仅以符号形式呈现。如果通用人工智能(Artificial General Intelligence,简称 AGI)的构建不以这些知识为基础,不像纯粹的深度学习那样从头开始重新学习所有知识,那只不过是有勇无谋,白白付出大量努力。

● 即使在像算术这样有序的领域中,深度学习也会遇到困难重重。而混合系统拥有的潜力超过了任何其他系统。

● 从计算的许多基本方面来看,符号完胜当前的神经网络。遇到复杂的场景,符号有更好的推理能力,可以更系统、更可靠地进行算术等基本运算,并且能够更精确地表示部分和整体之间的关系(这个能力对于解释三维世界和理解人类语言至关重要)。在表示和查询大型数据库方面,符号更加健壮,更加灵活。另外,符号更适合形式化验证技术,该技术关系到安全的某些方面,而且在现代微处理器的设计中得到了普及。放弃这些优点,而不是将它们用于某种混合架构,这完全是没道理的。

● 深度学习系统是黑盒子,我们可以查看其输入和输出,但无法轻易查看其内部运作。我们不明白为什么模型会做出这种决定,而且如果模型给出错误的答案,通常我们也不知道该怎么处理(除了收集更多数据)。因此,对于人类而言,深度学习笨拙且难以解释,并且在许多方面都不适合与人类一起进行增强认知。混合模型能够将深度学习的学习能力与符号的明确性和丰富的语义联系起来,就有可能带来革命性的转变。

由于通用人工智能需要承担的责任巨大,因此必须像不锈钢一样坚固、可靠,而且必须非常易于使用。任何单一的人工智能都可以独立工作,我们必须掌握将不同方法结合在一起的艺术。(想象一下这样一个世界:钢铁制造商高喊“钢铁”,碳爱好者高喊“碳”,却从来没有人想过将二者结合起来,而这就是现代人工智能的历史。)

好消息是,神经与符号的结合,这个Hinton曾经在 1990 年前后短暂尝试过,而我终己一生都在努力游说的概念,现在终于得到了关注。

2009 年,Artur Garcez 和 Luis Lamb 撰写了一篇关于混合模型的文章,题为《Neural-Symbolic Cognitive Reasoning》。最近在棋类游戏(围棋、国际象棋等)方面取得的一些成功都来自混合模型。AlphaGo 使用了符号树搜索与深度学习。符号树搜索是 20 世纪 50 年代末的一个想法,并于 20 世纪 90 年代获得了更加丰富的统计基础。经典的树搜索本身不足以赢得围棋比赛,单靠深度学习也不行。DeepMind 的 AlphaFold2(它利用核苷酸来预测蛋白质的结构)也是一个混合模型,这个模型将一些精心构造的代表分子的三维物理结构的符号方法,与深度学习的可怕的数据搜索能力结合在一起。

Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 等研究人员如今也正朝着神经符号的方向发展。IBM、英特尔、Google、 Facebook 和微软等大公司已经开始认真投资神经符号方法。Swarat Chaudhuri 和他的同事们正在研究一个名为“神经符号编程”领域,这对我来说简直是天籁之音。

四十年来,我第一次对人工智能的发展感到乐观。正如认知科学家 Chaz Firestone 和 Brian Scholl 指出的那样,“大脑的运转不只有一种方式,因为它并不是一件东西。相反,大脑是由几部分组成的,不同部分以不同方式运转:看到一种颜色与计划一次假期的方式不同,与理解一个句子、移动一个肢体、记住一个事实、感受一种情绪的方式也不同。”试图把所有的认知都塞进一个圆孔里是行不通的。随着大家对混合方法的态度越来越开放,我认为也许最终我们真的有机会。

面对伦理学和计算科学的重重挑战,AI 领域需要的不仅仅是数学、计算机科学方面的知识,而且还需要语言学、心理学、人类学和神经科学等多个领域的知识,AI 的进步需要付出多方面的努力。我们永远不应忘记,人类的大脑可能是已知宇宙中最复杂的系统,如果我们想建立一个与之相似的系统,开放式的协作将是关键。