首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
北大AI研究:语言如何为现实润色,颠覆真实认知

北大AI研究:语言如何为现实润色,颠覆真实认知

热心网友
99
转载
2026-01-26

当我们看到一只猫时,除了注意到它的外形和颜色,脑海里可能还会浮现出“猫”这个词、出现的语境、联想到它爱吃肉和喵喵叫等特性。这个看似自然又轻松的过程,其实背后,是大脑视觉等感知系统与语言系统之间正在进行的一场高速、无声的对话。

近日,北京大学朱毅鑫教授课题组、北京大学毕彦超教授课题组和山西医科大学第一医院王效春团队通过结合 AI 模型和大脑损伤患者的数据,发现语言其实是一副无形的智能眼镜,时刻在悄悄修饰着我们看到的世界。我们可能以为视觉就是眼睛看到什么就是什么,但是这项成果说明了视觉从来都不是孤立的。事实上,当我们在看图片的时候,其实不只是在看,而是在进行被语言调制过的看。

朱毅鑫告诉 DeepTech:“这项工作的独特之处在于结合了三类方法:一是脑成像技术,让我们能够观测正常人的大脑活动;二是脑损伤病人研究,提供了因果推断的可能;三是 AI 模型帮助我们解释观察到的现象。这是第一次将这三个学科视角融合在一起,为一个经典争议提供了实证依据。过去大家多是写论文辩论,而现在我们有了数据、模型和病人证据,这是一个范式上的进步。”

毕彦超补充称:“我们最近牵头了一项国家重点研发项目,希望在此基础上开展更大规模的研究,结合更丰富的行为学数据,不仅限于特定任务。”


图 | 从左到右:朱毅鑫、毕彦超、王晓莎、陈昊扬(来源:受访者)

AI 是否拥有人脑某些关键特征?

据了解,语言至少可以通过两种方式来参与视觉加工:第一种是贴标签,当我们知道某个物体叫做苹果的时候,这个词汇会帮助我们快速地归类,并针对苹果和梨做出区分;第二种是编织关系网,一些句子级别的描述比如蚂蚁搬着面包屑会把物体放入情境和关系之中,这种关系网络也会影响视觉皮层对于图像的处理。

这项成果证明了人类的视觉不是被动的摄像,而是主动的、与语言系统实时互动的构建过程。我们看到的,不仅是光线和形状,还有大脑使用语言和经验润色之后的理解。这也解释了为什么不同语言文化背景的人对于颜色、空间的感知可能略有不同。

目前的 AI 依然强大,但依然是一个黑箱,我们很难理解它们内部的决策过程,而这次成果提供了一种新思路:通过比较 AI 与大脑的响应模式,并借助脑损伤患者的自然实验,即可判断一个 AI 是否真的具备了人脑的某些关键特征。未来,我们或许能够设计出更像人脑的 AI,它们不仅能看能说,还能像人一样使用语言来思考所看见的世界。

同时,此次成果还可以促进脑损伤患者的康复,即理解语言与视觉的交互机制,也有助于为中风患者或者脑损伤患者设计更加有效的认知康复方案。如果我们知道哪些连接影响了患者的视觉理解,就可以有针对性地进行训练,帮助他们重建大脑内部的对话。

而未来的教育、设计和人机交互等领域,也可以从本次成果中获得受益。如果知道语言是如何塑造视觉的,那么就可以设计更加符合大脑处理习惯的信息呈现方式,比如在教育中使用图文并茂且语境丰富的材料,以此来促进更深层次的理解与记忆。

人类所谓的看见,从来都不是孤独的感官体验,实际上是一场大脑多部门联手的大合唱,这能为人类对于大脑的认知带来的新见解,也为开发更加接近人脑的智能机器提供了关键线索。


(来源:https://www.nature.com/articles/s41562-025-02357-5)

朱毅鑫说道:“从 AI 角度看,这项研究为我们提供了一种与脑科学结合的新思路。以前很多跨学科合作停留在数据层面,AI 充当数据分析工具。这次则是让 AI 模型进入循环,与人脑实验相互反馈,共同解构一个科学问题。”

毕彦超则表示:“从基础科研角度,我们一直希望把机制搞清楚,从而更好地服务应用。如果语言对认知的影响比我们想象的更深,那么我们可以通过语言更有效地进行教育、促进智能发展,甚至干预情绪障碍。

此外,与临床团队的合作让我们看到,脑损伤后除了运动障碍,认知障碍比如理解困难和语言障碍同样会严重影响患者生活。理解语言与感知的关系,可能为认知障碍的诊断与康复提供新思路。”

用 AI 解析人脑,再用人脑实验验证 AI

研究中,本次团队使用了 OpenAI 此前打造的 CLIP 模型,这是一种基于对比学习的多模态预训练模型,可以将图像与文本语义进行对齐。它和我们熟悉的图像识别 AI 有所不同,它不仅学习识别图片中的物体比如猫和狗,还同时学习与这些图片配对的文字描述,也就是说 CLIP 是在图文并茂的环境中训练出来的。

研究中,本次团队将 CLIP 和 ResNet 以及 MoCo 这两种模型进行的对比。ResNet 是一个只能学习给图片打标签比如猫或者狗的模型,是一个传统的图像分类模型;MoCo 是一个可以完全自学的模型,只需通过比较图片之间的相似度即可完成学习,无需文字描述的帮助。

他们让这几款模型去猜测人类大脑视觉皮层在看到图片时的活动模式。结果发现,与另外两种模型相比,引入句子描述的 CLIP 模型能额外解释人脑视觉区域的神经响应。这种优势在左脑更加明显,而左脑正是人类语言功能的主要区域。这意味着,像 CLIP 这样融合了语言训练的 AI,其内部处理信息的方式可能更加接近人脑,人脑在观看东西的时候并非单纯地照相,而是同步调用了语言知识和经验来理解视觉信息。

毕彦超表示,一般人很难理解自己的思维是如何工作的,因为我们接收的信息混杂,主观感受不一定可靠。通过脑成像技术,学界过去二三十年可以直接观测大脑;通过脑损伤病人,本次团队则可以看系统一部分损坏后,其余功能是如何变化的;再借助像 CLIP 这样的视觉-语言模型则可以剥离哪些是纯视觉处理,哪些受到语言影响。这就形成了一个科学闭环:用 AI 解析人脑,再用人脑实验验证 AI。


(来源:https://www.nature.com/articles/s41562-025-02357-5)

语言确实会影响视觉理解

朱毅鑫表示,关于语言与其他认知能力比如思维、视觉之间的关系。传统上分为两派:一派认为语言与视觉等认知功能完全独立,语言可能是后期发展的,与思维并不耦合;另一派认为二者紧密相关。2025 年,《Nature》的一篇综述代表了当前的主流共识:语言更多只是交流工具,而非影响我们如何看世界与思考问题的关键因素。我们的研究表明,这一认识可能需要被重新审视:语言可能正在影响我们的视觉理解。你如何看待事物、大脑如何处理视觉信息,实际上受到语言的调节。而本次研究则提供了相反的证据,证明语言确实会影响视觉理解,你如何看待事物、大脑如何处理视觉信息,实际上受到语言的调节。

毕彦超则表示,从心理学研究者的视角来看,人们一直关注这样一个本质问题:思维究竟受什么影响?语言是否影响思维?这既是心理学、哲学的核心问题,也具有广泛的实际意义。如果语言深刻影响思维,那么我们如何更好地运用语言来促进思维发展?如何设计更智能的模型?这个问题的争议很大,有人认为语言只是交流工具,有人则认为语言塑造了一切认知。


(来源:https://www.nature.com/articles/s41562-025-02357-5)

本次团队的优势在于,可以通过实证方式即观察大脑活动、结合行为实验来回答这个问题,而不只是停留在思辨层面。谈及研究过程,毕彦超回忆称:“本次课题也是我和朱老师都关注基本科学问题,且持开放态度。”

具体背景是:山西医科大学的一位医生此前在毕彦超这里读博,他们一直认为脑损伤病人是研究人脑机制的重要手段。但要深入剥离语言与视觉在神经层面的交互,传统方法受限。“我和朱老师一直保持交流,都意识到需要新方法。合作持续了三年多,中间也有过分析困难、数据复杂的阶段,但通过耐心磨合,最终取得了突破。”毕彦超表示。

问到通过这次合作给自己带来了怎样的启发,朱毅鑫表示首先要纠正一个误区:AI 与心理学并非无关。AI 的核心算法比如反向传播、强化学习大多源于认知科学领域的研究。AI 的初衷是模仿人类智能。“这次合作再次提示我们,AI 与心理学本质同源,应更紧密地结合。对于领域来说,这是一个重要的观念冲击。”他表示。

毕彦超补充称,AI 对心理学不仅是工具,更是帮助我们外化、厘清人类认知机制的方式。心理学研究大脑如何产生心理过程,这本身就是一个计算过程。以前两个学科关注点不同,科学语言也不同,现在时机成熟,应该更深入融合。这实际上是一种逆向工程人脑的过程,最终希望能制造出更接近人类智能的模型。


(来源:https://www.nature.com/articles/s41562-025-02357-5)

谈及未来计划,毕彦超表示其和合作者计划将这一框架拓展,系统研究语言在人类发展、智能成长过程中如何与视觉、运动系统交互。最终目标是理解人脑多模态整合的机制,并将其应用于机器人系统,实现真正意义上的具身智能。目前机器人运动笨拙,大模型无法与之有效结合,而人脑的语言-运动交互是无缝的。其希望揭示这种交互机制,推动机器人智能的发展。

朱毅鑫则指出,从 AI 角度看,当前多模态研究缺乏机制理解,单纯堆数据难以实现突破。人脑能够从小样本中快速学习,语言提供的抽象概念可能是关键。因此,他希望能够探索人脑如何利用语言实现高效学习,并将这一机制用于 AI 训练范式,实现小样本下的复杂概念学习。

参考资料:

相关论文 https://www.nature.com/articles/s41562-025-02357-5

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KK7AL38705119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈
AI
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

新加坡国立大学团队提出TGO方法,无需依赖成对偏好数据,可直接利用单个样本的标量评分优化视觉生成模型。该方法通过估计分数阈值划分伪正负例,并依分数距离加权训练,在图像与视频生成任务中有效提升性能,为利用真实场景标量反馈提供了新途径。

热心网友
05.18
IP SH城市视觉版权交易系统五年焕新升级
科技数码
IP SH城市视觉版权交易系统五年焕新升级

寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使

热心网友
05.12
美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流
科技数码
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流

原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

全链网解析:欧洲多国领导人面临支持率挑战
web3.0
全链网解析:欧洲多国领导人面临支持率挑战

英国工党领袖斯塔默面临公众信任挑战,支持率低迷。类似困境在欧洲多国领导人中普遍存在,德国总理默茨与法国总统马克龙的支持率同样远低于不支持率,反映出欧洲政界广泛的信任危机。

热心网友
05.18
芝麻开门Gate.io官网入口网址及安全交易平台使用指南
web3.0
芝麻开门Gate.io官网入口网址及安全交易平台使用指南

芝麻开门:安全便捷的数字资产交易平台 在数字货币的世界里,选择一个可靠、便捷的交易入口是第一步。芝麻开门作为一款服务于全球用户的知名交易平台,以其多重安全防护、对主流币种的广泛支持以及现货、杠杆等丰富功能,成为了许多交易者的选择。今天,我们就来详细梳理一下如何通过官方渠道,安全地获取并使用芝麻开门平

热心网友
05.18
通胀担忧加剧全球债市抛售 长期美债收益率创近三年新高
web3.0
通胀担忧加剧全球债市抛售 长期美债收益率创近三年新高

全球债市因通胀担忧遭剧烈抛售,长期美债收益率升至近三年高位。30年期美债收益率一度突破5%,10年期与2年期收益率同步攀升。日本30年期国债收益率单日飙升20基点创新高。油价上涨加剧通胀忧虑,策略师建议关注美债收益率在5 25%-5 5%区间的后续动向。

热心网友
05.18
欧易交易所官方入口网址一键直达 安全登录OKX交易平台
web3.0
欧易交易所官方入口网址一键直达 安全登录OKX交易平台

欧易(OKX):您的官方数字资产交易入口 在加密货币的世界里,选择一个可靠、功能全面的交易平台是第一步。欧易(OKX)作为全球领先的数字资产服务商,早已成为数百万用户的首选。它不仅提供比特币、以太坊等主流币种的现货交易,更将业务延伸至衍生品、DeFi以及NFT市场,构建了一个完整的加密生态。其背后,

热心网友
05.18
Gate.io官方安卓交易APP v7.19.1最新版下载与使用指南
web3.0
Gate.io官方安卓交易APP v7.19.1最新版下载与使用指南

gate io交易APP官方版 v7 19 1 安卓版下载与安装全指南 对于数字资产交易者来说,一个可靠、顺手的交易工具至关重要。Gate io交易APP,正是这样一款专业的平台,它为全球用户提供比特币、以太坊乃至上千种加密货币的实时行情与交易服务。其最新的安卓v7 19 1版本,在用户体验和系统稳

热心网友
05.18