- 如何教人工智能说人话?
- 徐英瑾
- 3040字
- 2025-03-04 18:02:23
一 为何让机器“说人话”很重要?
概而言之,所谓“人工智能”(下文简称为“AI”),就是用计算机技术提供的技术手段,对人类智能进行模拟或部分模拟的一门学科。而人类智能活动的一个非常重要的面向,就是“会说话”,也就是某种根据在特定语言共同体里通行的词汇表与语法,进行灵活的思想交流的能力。这种意义上的能力无疑是高等智慧生物之“智慧性”的重要指标,而且在我们已知的范围内,人类的确是唯一具备这种能力的物种(当然,这并不是说诸如鹦鹉或者黑猩猩之类的生物无法掌握人类词汇中的一部分,也并不是说它们没有特定物种内部有效的信息交流模式——然而,的确没有足够扎实的证据表明:它们能够像人类那样,通过不同的句法组合方式,创生与理解大量在内容上与其直接生存环境无关的语言表达式)。换言之,如果“会说话”乃是将人类智能与动物智能区分开来的最重要的指标之一,那么,完整意义上的AI显然也应当具备这种特征。由此我们就能立即得出这样的结论:对于AI研究来说,让计算机能够“说人话”,就将具有如下的重要理论意义——这样的一项工作,将帮助我们从“人造认知架构”的角度理解语言能力在一个智能体系中所占据的地位,并由此夯实AI研究与广义上的认知科学之间的联系。
而换个角度看,让AI“说人话”的科学与工程学努力前进,也会带来丰厚的实践红利。很显然,如果经过特定编程的计算机也能够理解人类的语言的话,这些机器就能直接参与人类的信息交流活动,并由此成为人类工作与生活中的好帮手。概而言之,能够“懂人话”的人工智能机器所能胜任的工作将包括(但不局限于):
(甲)电子邮件处理。譬如,在面对海量的电子邮件的时候,你会希望你的AI助手能够通过对于邮件内容的分析,鉴别出哪些邮件是需要迅速处理的,哪些则可暂缓处理,由此提高你的办公效率。
(乙)自动生成阅读摘要。譬如,如果有一篇文章实在太长,让你觉得无法迅速通读,你便会希望你的AI助手能够迅速形成一份内容提要,以便让你迅速把握文章要点。
(丙)自动翻译。譬如,你要让计算机将一段电子邮件的内容自动翻译成一种你不懂的语言——如韩语或者日语——或者将一段你不懂的外语表达翻译成汉语。
(丁)文本自动生成。譬如,你需要为公司的某次年会准备一份发言稿,却除了一些关键词或词组(如“业绩”“维持增长的势头”“优化研发队伍”)之外,什么句子都想不出。这时候,你便会希望你的AI助手能够根据这些提示,给出一些不同方向上的文本生成方案,以供你参考。而当你选定某个方案之后,你的AI助手甚至可以沿着这一路径继续优化相关的文本方案,最后帮你“多快好省”地完成发言稿。
在AI学界,负责完成上述任务的计算机编程研究,都会被打上“自然语言处理”(NLP)的标签。顾名思义,“自然语言处理”的任务,就是用计算机进行编程,以便让相关程序能够“理解”人类的自然语言(不过,这里的“理解”二字必须要打上引号,乃是因为对于计算机是否可能最终“理解”人类语言,尚且存在着非常复杂的哲学争议)。NLP研究因为涉及的话题非常多,复杂性、综合性特别强,所以一向被视为AI研究的皇冠(请参看图1-1对于NLP所涉及的知识模块的概括)。
不过,说到这里,爱较真的读者或许会问:“会说话”能算是“具有智能”的充分必要条件吗?
笔者倾向于认为答案是肯定的。换言之,如果某观察对象能够具有我们认可的语言水平(即达到了“会说话”的标准),你就能推出它有智能;反过来说,如果它是有智能的,你就能断定它有比较高的语言水平。举例来说,假设某外星人突然造访地球,还能流利地运用英语、汉语、日语三种语言与我们进行长达2小时的富有成效的交谈——在这样的情况下,我们地球人是没有任何理由认为它们是缺乏智能的。反过来说,如果外星人的确造访了我们的星球,并在近地轨道悬停了它们的飞碟,但因为某种原因暂时没有与我们建立语言联络的话,那么我们也的确必须假设它们是有语言的——因为倘若缺失语言在生产活动的分工协作中所起到的沟通作用,如此复杂的飞碟恐怕是无法被制造出来的。

图1-1 自然语言处理所涉及的知识模块分布1
1 图的绘制参考了如下文献:Diksha Khurana, Aditya Koli, Kiran Khatter, Sukhdev Singh, Natural Language Processing: State of The Art, Current Trends and Challenges, arXiv: 1708.05148v1 [cs.CL], 2017, https://arxiv.org/abs/1708.05148。
这里需要提醒读者注意的是,笔者虽然认为“会说话(无论说哪种语言)”是“具有智能”的充分必要条件,但这并不意味着“能说某种特定的人类语言(如汉语或英语)”乃是“具有智能”的充分必要条件。这就好比说,你与某个异族的人交流的时候,恐怕是不能仅仅因为彼此之间语言不通而假设对方是缺乏智能的。由此外推,我们甚至可以说:即使某些机器人的AI架构所支撑的交流语言的可理解性已经落在了广大人类用户的理解范围之外,我们也不能仅仅以此为据,认定这些机器人缺乏智慧。说得更学术化一点,是否能够通过“图灵测验”6,并非是判断某对象是否具有智能的充分必要条件(而至多只能算是充分条件)。由此我们也就不难推出,虽然我们的NLP研究将不得不具有“为说特定自然语言的人类用户服务”的最终指针,但是作为某种研究的“中介语”,我们设计的系统所进行的语言表征,可能并不直接就是诸如英语、汉语这样现成的人类语言。相反,NLP的研究者所要直面的,可是一个从表征的碎片演化为完整的人类符号系统的复杂过程。请参看图1-2对于目前主流NLP架构的信息处理阶段的概括:

图1-2 自然语言处理机制的典型信息处理流程7
对于本小节所给出的上述讨论,有的读者或许还会反驳说:笔者将语言处理能力视为智能核心的观点,显得有点过于“逻各斯中心主义”了,并由此忽略了“具身化”(embodiment)在智能构成所起到的作用。换言之,在这些人看来,一个智能体之所以是智能的,首先并不在于其能说话,而是因为其能够通过身体在物理空间中自由移动,感知光线、气味与温度,躲避危险,等等。“会说话”无疑是第二位的。
而在笔者看来,上面这种批评并没有抓到笔者立论的核心。换言之,说“会说话是具有智能的充分必要条件”,并不等于说要否认:使得“会说话”这一条件本身被满足,还需要大量的前提条件。这就好比说,承认“具有相关行业内三年以上的工作经历,乃是获得某工作职位的最重要条件”,并不意味着要否认“具有相关行业内三年以上的工作经历”这一条件自身的满足,还需要奠基在大量的前提性条件之上。相反,笔者完全愿意承认“具身性”自身的确构成了“会说话”的一个重要前提。譬如,《庄子·秋水》所说的“夏虫不可以语于冰者,笃于时也”一语,实际就已涉及说话者的身体感受力之局限对于其语言理解力的制约(顺便说一句,对于具身性与NLP之间关系的正面讨论,其实也贯穿了本书的很多章节)。不过,对于庄子所言的上述阐发,同时也反过来支持了笔者的观点:如果你发现某个对象在言语层面上无法“与之语冰”,这就很可能进一步说明该对象在感知层面上无法感受到冰天雪地的时节。这也就是说,语言交流的结果,依然能够有效地反映一个“疑似智能体”的智能架构在非语言层面上所接触的信息的广度与深度。与之相比较,对于某对象纯粹的非言语身体行为的记录,却往往不能让观察者判断出对象的某些抽象能力的高低。譬如,一位哲学教授肯定无法通过一位学生的纯肢体动作来判断他是否读懂了康德的《纯粹理性批判》,而只能通过笔试或口试等言语活动来完成此类判断。从这个角度看,从言语行为——而不是从身体行为——的角度出发来评判被观察对象的智能水平,依然是具有其特有的方法论优势的。由此外推,我们也不难得出:就人造智能体而言,其在NLP领域的表现水平,也应当对其整体智能水平具有指标意义。说“NLP研究乃是AI研究的王冠”,毫无夸张之处。