说起来,要让AI“看见”一个人没那么难,难的是让它认准“那一个人”。
在美剧《西部世界》里,AI主人公突然觉醒,发现自己所在的世界不过是人类用来宣泄欲望的游乐园,于是掀起了反抗;《黑客帝国》则更彻底——AI直接圈养了全人类,掌控了整个地球。科幻作品里的AI意识觉醒总是充满戏剧性,那么在现实生活中,这一幕有没有可能成真?

就在2020年的国际学习表征会议(ICLR)上,图灵奖得主、蒙特利尔学习算法研究所主任约书亚·本吉奥(Yoshua Bengio)给出了一个相当大胆的判断:未来机器学习完全有可能超越无意识状态,向全意识迈进。而他特别强调,注意力机制是实现这一跨越的关键。
这就引出了一连串问题:人类大脑里的注意力和AI模型里的注意力机制,到底是不是一回事?现在AI用的注意力机制还有哪些“坑”需要填平,才有可能真正拥有注意力?
目的在于减少对无用线索的关注
先聊聊注意力机制到底是什么。
“注意力机制的灵感,其实就来自人类视觉注意力——这是人类在漫长的进化过程中发展出来的一种处理视觉信息的能力。”中国科学院自动化研究所的研究员张兆翔解释道。
他说得更具体一些:人类视觉系统每秒大约要接收8.96兆比特的外部信息,人脑虽然计算和存储能力都有限,却能快速从乱糟糟的外部世界中挑出重点来处理。这种本事就是选择性视觉注意。好比我们看一幅画时,总有一块最显眼的地方会首先抓住你的目光——因为大脑对有特殊性的东西特别敏感。
视觉注意机制的理论研究,从20世纪80年代起就一直是神经科学和认知科学的热门话题。中科院自动化所副研究员王威介绍说,目前学界一般按两类标准来划分注意机制:第一类是从“注意怎么产生的”角度,分为自下而上的数据驱动注意、自上而下的任务驱动注意,以及两者结合产生的注意;第二类是按“要注意什么”来分,包括基于空间的注意、基于特征的注意和基于对象的注意。
那AI这边的注意力机制呢?福州大学数学与计算机科学学院的柯逍博士说得很直接:“对于人工智能来说,注意力机制就是机器学习里的一种数据处理方法,广泛应用在自然语言处理、图像识别、语音识别等各类任务中。它的主要功能就是帮模型减少对那些无用线索的关注。”
厦门大学人工智能系教授纪荣嵘则从更本质的角度总结:注意力机制,说到底就是一个特征信息评估和筛选的过程。
一般认为,深度学习里的注意力机制最早是由约书亚·本吉奥团队在2014年提出的“软注意力机制”。后来在这个基础上,又发展出了多步注意力机制、跨模态交互注意力,以及现在特别火的Transformer网络里用的自注意力机制。
“目前研究中的AI注意力机制各有各的特点,但核心思路都一样——构建输入与输出之间,或者输入数据内部不同层面之间的关联关系,重点突出某些区域或某些关系,从而提升任务的性能。”张兆翔说。
未经训练难以注意新鲜事物
最近几年,注意力机制已经渗透到了AI的很多细分领域。
“AI是可以被设计出不同程度的注意力的。如果任务需要不同强度的注意力,我们可以设计多个注意力网络来搞定。”柯逍说。
举个例子:谷歌的翻译系统从2016年开始就用上了注意力机制,翻译质量提升明显。在文本问答、对话系统、知识图谱抽取这类自然语言处理任务里,注意力机制几乎是标配。而在计算机视觉领域,注意力机制也成了大趋势——细粒度检索、图像分类、行人重识别等任务中,带注意力机制的视觉模型越来越多。
既然注意力机制是从人类视觉注意力来的,那这两者到底一样不一样?
柯逍的看法是:AI的注意力在某种程度上是对人类视觉注意力的仿生,从功能上看挺接近,但本质上差别很大。
纪荣嵘举了个直观的例子:“从过程上看,两者确实很像——都是在给定一个查询任务的时候,帮人(或模型)去关注最相关的信息。比如问‘桌子上有什么东西?’,人就会下意识去看桌子的区域。在视觉问答任务里,AI模型也会聚焦到带桌子的视觉区域,然后回答问题。”
但他也指出,从原理上讲,AI的注意力机制是通过计算查询信息和给定特征之间的语义关联程度来获得注意力分布的,而人类的认知系统要复杂得多。
“AI运用注意力的过程,实际上就是一个记忆查询的过程。它很快、很精确,但问题在于——它没法发现异常。”柯逍说。比如让AI反复看同一张图片,它每次给出的关注区域都一样;但换乘人类,第一次可能会关注自己感兴趣的地方,多看几次就可能关注到图片的其他区域了。
柯逍还指出另一个关键差距:人类的注意力很容易就能锁定某个特定的人,比如在人群里找朋友。但AI没经过大量专门训练,根本做不到这一点——让AI关注“人”不难,但关注“某个特定的人”就难了。还有一点最大的区别是:人类会对没见过的新鲜事物产生注意,而AI的注意力机制不会。
与人类注意力相比差距明显
认知神经科学对意识的定义是“对一个人内在思想的感知,或者对外部事物或内在事物的察觉”。意识形成的过程,本质上就是一个信息不断筛选、处理和演化的过程。
纪荣嵘提到:“约书亚·本吉奥在2017年的时候,就尝试用机器学习的方法来验证这个理论。其中一个关键环节就是用注意力机制去选择‘意识状态’。所以从信息提炼的角度来看,注意力机制对形成机器意识确实非常重要。”
那么问题来了:AI的注意力机制到底是靠“直觉”还是靠“推理”?
柯逍的看法是:“目前来说,AI的注意力机制更接近直觉。”因为大部分注意力机制靠的是训练时反复告诉它应该注意哪些地方、哪些东西是有关联的。比如训练AI看猫在河边吃鱼的图片,反复强化之后,AI再看到同时有猫和鱼的图片,就会直接关注这两个区域。它不会像人类一样,看到猫再推理出河边可能有鱼,再去找鱼。
不过纪荣嵘指出,近期的注意力模型研究已经开始向推理能力倾斜了。比如说近几年大火的Transformer模型,就用多层的注意力网络不断提炼和处理输入信息。在这个过程中,每一层的注意力结果都在变化——从某种意义上讲,可以认为模型是在推理。
那么,现在的AI注意力机制还差哪些条件,才能真正拥有类似人类的注意力?
“首先得增加模型的知识储备。”纪荣嵘说,“模型得有足够多的知识,才知道哪些信息值得关注。比方说,模型从来没见过飞机,那你问它关于飞机的问题,它就没办法执行查询。”
“其次,还得改进注意力模型的结构,提升推理能力。这样模型才能在复杂的语境里,运用注意力来完成更复杂的操作。”纪荣嵘补充道。
柯逍的结论更干脆:“就目前来说,AI注意力和真正的人类注意力之间的距离,仍然非常遥远。”
