IBM AI 辩论成功赢得人类，人工智能已经如此强大

Fanly 2018-06-19 13:13:40

在昨晚旧金山的一次小型活动中，IBM 举办了两场人与人之间的辩论俱乐部式讨论，一场名为“ 项目辩论者 ”的 AI。目标是让 AI 根据一些非常标准的规则进行一系列合理的论证辩论：提前没有意识到辩论话题，没有预先的答复。每一方都发表了四分钟的介绍性发言，对另一方的论点持反对意见四分钟，以及两分钟的闭幕声明。

Project_Debater with human professional

这看起来像是一次巨大的飞跃，超越了我们从 IBM 那里记得的另一场激动人心的演示，当时 Watson 在 Jeopardy 的竞争中拖地。今天 IBM 的 AI 演示就是建立在这个基础之上的，它有许多可以从中得到的数据库，就像沃森当天所做的一样。和沃森一样，它能够分析所有这些数据的内容以得到相关的答案 - 但这一次，“答案”是在四分钟的演讲中为与之相关的有力补贴空间和远程医疗的切实点。

项目辩论者引用了消息来源，歪曲了观众对儿童和退伍军人的亲和力，并且在这个过程中做了一个可以打破相关笑话的可靠工作。

这非常令人印象深刻 - 它在几分钟内基本上形成了一个新生级的学期论文类型的论点，当提出一个没有具体准备的辩论话题时。该系统拥有“数百万篇文章”，它假定在其数据库中有大约 100 个知识领域。当它得到一个辩论话题时，需要花费几分钟的时间来阐述它们，决定什么会使最好的论点支持这个话题，然后创建一个描述这些话题的小讲话。

其中一些要点非常容易，一些引用消息人士称，有些很明显是从文章中分裂出来的。尽管如此，它仍然能够从我们通常认为的“现在信息”模式转变为当我们听到人工智能进入“做出论证”模式。但是更令我印象深刻的是，它试图直接与人类对手几乎实时地做出争论（系统需要几分钟才能分析人类 4 分钟的讲话，然后才能做出反应）。

人工智能是否真诚地争论？不完全确定

它坦率地让我感到有点不安，但不是因为像“机器人会变得自我意识和接管”或“AI 即将来找我们的工作”这样的常见担心。“这是更微妙和更难以让我的手指。也许这是第一次，我觉得像人工智能试图破坏。我没有看到它的谎言，也不认为它试图欺骗我们，但它确实参与了一种辩论策略，如果你看到人类尝试它，会让你相信人类会少一点。

现场是这样的：一位人类辩论者反对政府应该资助太空探索的动议。她建立了一个理解世界的框架 - 这是一个非常常见的辩论策略。她认为，补贴应该符合两个具体标准之一：履行基本的人类需求和创造只能由政府完成的事情。太空探索不适合该法案。很公平。

项目辩论员，其工作是直接回应这些问题，并没有直接反驳他们。它当然在同一地区进行了讨论：它声称，“补贴太空探索通常会以科学发现的经济增长形式回报投资”，并且它表示对于像美国这样的国家，“有一个太空探索计划是成为一个伟大力量的关键部分。“

项目辩手没有做的是直接参与其人类对手提出的标准。而事情就是这样：如果我在那场辩论中，我也不会这么做。设置辩论框架并接受框架通常是失败的秘诀是一种强有力的辩论策略。

那么问题是：项目辩论者是不是不明白标准，或者是否理解并选择不参与这些条款？看着辩论，我想到的答案是，它没有完全得到它 - 但我并不积极。我无法分辨出人工智能不如自己的聪明，人工智能比我之前见过的人工智能更聪明。这是一个非常认知不协调的时刻。就像我说的：令人不安。

“如果它真的相信它明白那个对手在说什么，那么它就会专门针对这一点提出一个非常有力的论据。”

Jeff Welser，Almaden 的 IBM 研究副总裁兼实验室主管，让我放心。项目辩论者没有得到它。但它并没有以一种非常有趣和重要的方式得到它。“没有任何努力让它变得棘手或者拆装游戏，”他告诉我（phew）。“但它确实确实......确实是人类所做的事情，但它在它的局限之内。”

从本质上讲，项目辩论者为其理解的每一条信息分配一个置信度分数。如：该系统实际上理解正在讨论的内容的系统有多信心？“如果它确信这点是对的，如果它真的相信它理解了那个对手说的话，那么它就会专门针对这一点提出一个非常有力的论据，”Welser 解释说。

“如果它不那么自信，”他说，“尽管它没有完全回答这个问题，但最好能做出一个可以说服作为参数的论点。有时候，这正是人类所做的一切。“

所以：人类说政府应该有围绕人类基本需求的具体标准来证明补贴的合理性。项目辩论者回应说，这个空间非常棒，对经济有利。人们可能会选择这种策略作为一种偷偷摸摸的方式来避免以错误的方式进行辩论。项目辩论者在其算法中有不同的动机，但没有那么不同。

这个实验的重点不是让我觉得我不能相信计算机真诚地争论 - 尽管它非常有效。不，重点在于 IBM 展示了它可以训练人工智能在新的研究领域，最终可以在真实，实际的环境中使用。

首先是在决策环境中解析大量信息。同样的技术可以读取一系列数据并提出一系列辩论的优点和缺点，可以用来决定某种股票是否值得投资。IBM 的系统没有价值判断，但它向银行提供了大量信息，显示了有关股票的辩论的双方。

“这仍然是一个研究级别的项目。”

至于辩论部分，Welser 说，它“帮助我们理解语言是如何被使用的”，通过教授一个系统在比平常更细致的修辞背景下工作。嘿谷歌给我这条信息并关掉我的灯。也许有朝一日可能会帮助律师构建他们的论点，“他并不是说项目辩护人会成为一名优秀的律师，”他开玩笑说。另一位 IBM 研究人员表示，这项技术可以帮助判断假新闻。

这与 IBM 变成产品的东西有多接近？“这仍然是一个研究级别的项目，”Welser 说，尽管“现在它下面的技术”已经开始在 IBM 项目中使用。

在关于远程医疗的第二次辩论中，项目辩论者再次难以解析人类对手所做的关于人体触摸在诊断中有多重要的精确细微差别。这并不是讨论这个问题，而是回到了更广泛的争论中，这表明也许人类只是害怕新的创新。

“我真的相信技术的力量，”AI 说道，“就像我应该的那样。”