IBM最强AI辩手评分接近人类专业辩手水平

 18日凌晨,IBM自主辩论人工智能(AI)系统Project Debater登上了国际学术顶刊《自然》(Nature)的封面。

 仅需喝一杯咖啡的时间,该系统就能学习分析4亿篇报道文章。

 这个IBM最强AI辩手,可以自如地现场与人类专业辩手进行合乎逻辑地辩论,既能自行组织开场发言,又能驳斥对方辩手的论点。

最终,Project Debater在78类辩题中获得接近人类专业辩手的平均评分。

 数十年来,AI系统在人机大战中屡屡夺魁。1997年,IBM“深蓝”系统击败国际象棋冠军;14年后,IBM“沃森”系统在《Jeopardy!》问答节目中打败人类明星选手;2016年,谷歌AlphaGo击败世界围棋冠军……但IBM研究人员认为,这些游戏竞赛类AI仍存在于AI的“舒适区”中。

 他们有许多共性:对赢家和固定规则都有明确的定义,便于AI用强化学习找出确保胜利的策略……但辩论AI不具备这些条件,评分权掌握在人类观众手中,AI也不可能用一种人类无法遵循的策略来取胜。

 因此,在辩论领域,人类仍处于上风,辩论AI的挑战在AI舒适区之外。

 针对这一难题,IBM研究人员自2012年启动了一项新任务——研发一个完全自主、能与人类实时辩论的AI系统,即Project Debater。

一、自主辩论超出了以往语言研究工作范畴

 2019年2月,2021年欧洲大学辩论竞标赛冠军Harish Natarajan参加了一场特殊的辩论,他站在约800名现场观众面前,和黑柱状的计算机打了一场辩论赛。

这个计算机是Project Debater,IBM设计的AI辩手系统,声音为女声,辩论主题是“是否应该对学前教育进行补贴?”

 辩题公布后,比赛双方分别有15分钟的时间来梳理自己的想法,然后双方交替发表长达4分钟的开场发言、长达4分钟的第二轮反驳对手的发言,最后各自发表2分钟的结束陈词。

这是Project Debater首次公开展示辩论能力,尽管它输了当时的比赛,但它的超强总结能力和拟人化沟通能力给对手和观众都留下了深刻印象。

 语言修辞和辩论一直是人类独具的艺术。亚里士多德认为,雄辩的艺术建立在可信度(Ethos)、感染力(Pathos)、逻辑结构(Logos)这三种基本的说服方法上。而在这场辩论赛上,AI系统成功地展示了所有三种说服方法。

 AI辩手虽然没能首战告捷,不过IBM研究主管Dario Gil说,它的目标并不是击败人类,而是创造能掌握复杂丰富的人类语言能力的AI系统。

 通过分析人类话语,找到支撑论点的论据,对于几年前的AI来说还是相当难达到的能力。

 如今,全球有50多个实验室在研究这一问题,其中包括许多大型软件公司的研究团队。

 近年来,语言模型在理解任务方面取得实质性进展。对于简单的任务,比如预测给定句子的情感,最先进的系统往往能表现最好;而在更复杂的任务上,如自动翻译、自动摘要、对话系统,AI系统仍不能达到人类水准。

 而辩论是一种同时需应用广泛语言理解和语言生成能力的人类思维认知活动,自主辩论制度似乎超出了以往语言研究工作的范畴。

 对此,IBM研究实验室已经训练了其最新的自主AI系统,并在最新发表于《自然》期刊的论文中,全面描述了该系统在广泛议题中的表现结果。

 二、自主辩论AI系统的四大核心模块

  IBM这篇论文的题目为《一个自主辩论系统(An autonomous debating system)》。

  具体来看,Project Debater系统由4个主要模块组成:论点挖掘、论据知识库(AKB)、论点反驳和论证构建。

  ▲辩论AI系统架构

 1、论点挖掘:从4亿篇文章索引相关句

  论点挖掘分为两个阶段。

  在离线阶段,基于约有4亿篇报道文章的大型语料库),把文章分解成句子,通过分析其中的单词、维基百科概念、预定义词汇等来索引句子。

  到在线阶段,获知辩题后,系统就依赖此索引进行全语料库的句子级论点挖掘,检索出与辩题相关的立场主张和论据。

  首先,AI系统先用定制查询检索含有此类论点倾向性高的句子。接着,根据这些句子代表相关论点的概率,用神经模型对它们进行排序。最后,结合神经网络和基于知识的方法,对每个接近辩题的论点立场进行分类。

  在此阶段,系统还使用了主题扩展组件来更好地覆盖相关论点的范围。如果该组件识别出与辩题相关的其他概念,它会让参数挖掘模块也搜索描述这些概念的论据。

  此外,论点挖掘模块还搜索支持另一方的论据,目的是准备一组对手可能使用的论据和可能作为回击的证据,该操作稍后由论点反驳模块使用。

  2、AKB:捕捉不同辩论之间的共性

  论据知识库(AKB)的文本包含原则性论点、反论点和可能与广泛辩题相关的常见例子。这些文本由人工编写,或自动提取然后人工编辑,并分组成专题类。

  给定一个新的辩题,该系统能使用基于特征的分类器,来确定哪些类与该辩题相关。

  然后,所有与匹配类相关联的文本可以用在发言中,系统基于它们与辩题的语义关联性,来选择那些它预测最相关的文本。

  这些文本不仅包括论点,还包括鼓舞人心的引语、丰富多彩的类比、辩论的适当框架等等。

  3、论点反驳:提前预判对方论点

  论点反驳方面,系统会使用论点挖掘模块、AKB模块和从iDebate中提取的论点,编译一个可能被对手提及的论据列表,将其称之为“线索”。

  接下来,IBM“沃森”系统会用到其针对定制语言和定制声学模型的自动语音到文本服务,将人类对手的语音转换为文本,然后由神经模型将获得的文本分解成句子,并添加标点符号。

  下一步,专门的组件会确定哪些提前预测的论据确实由对方陈述,并针对性提出反驳。除了这种基于主张的反驳之外,AKB关键情感术语也被确定并作为简单反驳形式的索引。

  4、论证构建:组合构建语音发言

  论证构建模块是一个基于规则的系统,集成了聚类分析。在删除被预先指定为冗余的参数之后,剩余参数根据语义相似性进行聚类,每一类都会确定一个主题,类似于一个维基百科的概念。

  系统会选择一组高质量的论点,然后用各种文本规范化和重新措辞技术来提高流利度,最后用预定义的模板逐段生成每个语音陈词,从而完成与对手的辩论交流。

  三、AI辩论表现接近专业人类辩手

  由于没有公认能判定输赢的单一指标,评价一个辩论系统的表现有挑战性。

  在公开辩论中,观众在辩论前后的投票能决定获胜的一方,但这种方法存在局限性。

  如果辩前投票高度不平衡,辩前票数高的持方负担更大。比如,在2019年2月的人机辩论赛中,赛前79%观众支持AI持方,只有13%观众支持人类持方,因此AI只能再说服21%观众,而人类选手有可能说服87%的其他观众。

  此外,投票涉及个人意见,难以量化和控制,而创造一个有大量公正观众的现场辩论非常困难。

  为了评估Project Debater的总体性能,研究人员将其与各种基线进行比较,由15位虚拟观众对AI系统及专业人类辩手的辩论表现进行打分,涉及78个辩题。

  除了Project Debater外,研究人员没有发现任何其他能参与完整辩论的方法,因此比较范围相对有限。

  在图a中,条形图代表平均得分,从5到1对开场发言的同意程度递减,5代表“非常同意”,1代表“强烈反对”。斜纹条代表系统中的演讲由人产生,或依赖于人工整理的论据。

  结果可见,Project Debater的平均得分均最接近专业人类辩手的平均得分。

  在对最终系统的评分中,研究人员同样涵盖了78个辩题。20位评分员观看了3类辩论陈词,并在不知道它们来源的情况下进行打分。

  结果如图b,Project Debater在所有辩题的平均得分均高于中立分数3分,78个辩题中有50个辩题的平均得分超过4分,说明在至少有64%的辩题中,评分员认为Project Debater的表现不错。

  不过,尽管评分超过基线和对照组,但Project Debater的表现仍与人类辩手存在明显差距。

  四、评分高的辩题更加切题

  为了克服更多挑战,在后续的定期评估中,研究人员对一组独立的36个辩题进行额外评估,结果表明Project Debater的过拟合程度很小。

  通过进一步分析这36个辩题的结果,研究人员发现,其错误大致可分为局部错误、影响语音中的特定内容单元,以及通过多个元素传播并影响整个语音的更广泛错误。

  最常见的局部错误类型是错误的分类论点立场,比如内容离题、不合整体的叙事连贯性;在广泛性错误中,同一类型的错误在整个发言过程反复出现。

  研究人员将这些辩题分为3组,根据评分注释为“高”(3.5分以上)、“中”(3-3.5分)、“低”(3分以下)。

  值得注意的是,广泛错误只发生在“低”组,相反,局部错误一定程度上几乎出现在所有辩题,包括在“高”组。

  此外,各组之间最明显的差异是三次陈词的内容量。从总字数来看,“高”、“中”、“低”辩题的平均字数分别是1496字、1155字、793字。

  这种“低”辩题的标志反映了构建一个系统的挑战,该系统依赖于许多组成的输出,是为了能在各种主题上产生精确的输出。

  具体来说,为了让系统找到相关内容,必须在语料库中讨论辩题的主题,而对于要包含在最终输出中的特定内容单元,必须通过多个置信度阈值,为确保高精度,这些阈值被设置的很严格。

  这反过来有可能导致很多相关内容会被过滤掉,因而生成几分钟的口语内容是个艰巨的任务。

  另一个显著特点是由AKB组成在开场和结束陈词时提供叙事框架的质量。“高”辩题通常包含框架元素,这准确地捕捉到了辩论的本质;而“中”辩题的框架往往是可以接受的,但不那么切题。

  最后,研究人员分析了覆盖整个系统输出的5种内容类型的词频:论点挖掘、AKB、反驳、反驳线索、“罐装”文本(人类预先编写的句子片段)。

如图,所有类型中,“低”辩题的内容量相对较少,与此前分析一致。最大差距体现在挖掘的内容,进一步表明,高质量的输出与被检查语料库中丰富的相关论据、精确的论点挖掘模块有关。

  此外,研究人员研究了在其原始评估集中所有78个辩题所有陈词的内容类型相对分布。其中,不到18%的内容是传统“罐装”文本,其余内容则由更高级的底层系统组成提供。

  五、AI薄弱环节:模仿人类辩手的连贯性

  苏格兰邓迪大学计算机科学家Chris Reed认为,从Project Debater的实时性能来看,IBM团队的成就很明显,不仅使用从巨大的数据集中提取的知识,而且还能即时回应人类的话语。

  他也提到,这一系统的最薄弱环节,或许是它在努力模仿人类辩手的连贯性和流动性。该问题与论据选择、抽象表达、论点编排的最高层次相关。

  不过,这一限制并非Project Debater所独有。

  尽管人类两千多年来一直在研究,但对论据结构仍认识有限。

  根据论证研究的重点是语言使用、认识论、认知过程还是逻辑有效性,人们对于论证和推理的连贯组合已提出的关键特征各不相同。

  辩论技术系统面临的最后一个挑战是,是将辩论视作受一系列单一考虑因素影响的局部论述片段,还是将其编入更大范围的社会规模辩论中。

  在很大程度上,这是设计要解决的问题,而不是设计解决方案。

  通过在论点上设置先验界限,可以实现理论上的简化,从而提供主要的计算优势。识别的“主要需求”就成了一个明确任务,机器几乎可以像人类一样可靠地完成这项任务。

  问题在于,人类根本不擅长这项任务,这恰恰是因为它是人工设计的。

  在公开讨论中,给定范围的论述可能是在一种情况下的主张,另一种上下文的前提。此外,在现实世界中,没有明确的界限来界定一个论点:发生在辩论室之外的话语不是离散的,而是与交叉引用、类比、例证和概括相联。

  关于AI如何解决此类论证网络的想法已有理论提出。但与这些实现方式相关的理论挑战和社会技术问题是巨大的。

  设计吸引大量受众的方式进入此类系统,就像设计直接的机制使他们能够与这些复杂的论证网络进行活动一样困难。

  结语:从辩论AI的野心,看AI系统的未来

  无论是作为AI系统还是对AI领域的巨大挑战,Project Debater都具有极大的野心。

  AI和NLP的研究往往集中在“狭义AI”上,这类任务需要的资源较少,通常有明确的评估指标,并能接受端到端解决方案。

  相反,“复合AI”任务与更广泛的人类认知活动相关,需要同时应用多种技能,较少被AI社区处理。IBM将复合AI任务分解成一组有形的、狭窄的任务,并为每个任务开发了相应的解决方案。

  结果表明,一个适当组织这些组件的系统,可以有意义地参与复杂的人类活动,IBM研究人员认为,这是不容易接受单一的端到端解决方案的。

  IBM的研究,说明AI有参与复杂人类活动的能力。

  Project Debater所挑战的难题,远远超出了当前AI技术的舒适范围。它提供了一个令人期待的前景,当AI能更好地理解人类语言,同时变得更加透明和可解释,人类也将能在AI的帮助下做出更好的决策。

  鉴于虚假新闻如火如荼、舆论两极分化和惰性推理等现象普遍存在,AI能在人类在创建、处理和共享复杂论点等方面提供支持。

  正如在旧金山的展示中,Project Debater问候对手时说到的那句:“我听说您在与人类辩论比赛的胜利中保持了世界纪录,但恐怕您从未和机器辩论过。欢迎来到未来。 ”