自然语言处理(NLP)

AI研究的核心目的,是希望计算机拥有与人类一样的智慧和能力。而语言,则是人类最重要的思维、认知与交流的工具。历史上,人类智慧的每一次进步都离不开语言“开路”。因此,如何让计算机有效地理解人类语言,进而实现人机之间有效的信息交流,被视为AI领域最具挑战性的技术分支。

自然语言是人类通过社会活动和教育过程习得的语言,包括说话、文字表达以及非语音的交际语言,这种习得的能力或许来自先天。AI发展史上著名的“图灵测试”,就是把利用自然语言进行交流的能力当作判断机器是否已达到拟人化“智能”的关键指标——如果机器在对话交流中做到成功地让人类误认为它也是“人类”,就意味着机器通过了图灵测试。

长期以来,对NLP的研发推进是AI科学家的重要议题,他们希望通过算法模型让AI拥有分析、理解和处理人类语言的能力,甚至可以自己生成人类语言。从20世纪50年代起,计算语言学家就有过这样的尝试:使用教孩子学习语言的方式去教计算机,从最基础的词汇、语法开始,由浅入深,逐步深入。但进展缓慢,效果并不显著。直到近年,深度学习技术横空出世,打破僵局,使科学家在教计算机学习语言这件事上,彻底摒弃了传统的计算语言学方法。

这背后的原因其实不难理解。在“学习”方面,深度学习技术具有得天独厚的优势——不仅可以轻松掌握复杂的词汇关系和语言模式,还能凭借“计算机学生”的特性,通过源源不断的数据汲取更多知识,进而实现能力的扩展。因此可以说,在深度学习技术出现后,计算机学习人类语言变得事半功倍。

在深度学习技术的支持下,NLP领域每项检测标准的纪录都不断被刷新,特别是在2019~2020年,这个领域出现了很多令人兴奋的关键性突破。