人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
人类一眼就能看懂的文字,AI居然全军覆没。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:
不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。

先切再叠,AI束手无策
VYU团队设计了两个小实验:
1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。

人类读起来毫无压力,AI却几乎全错。


2、挑选了100个八字母英文单词,把前后两半分别用红色和绿色渲染,再叠加在一起。

对人类来说,这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感,大脑能自动分离颜色,然后拼出完整的单词。
但对AI模型来说,结果却完全不同:


即使是最新发布的大模型,在这些问题上也屡屡碰壁。
无论是Gemini 2.5 Pro:


还是Kimi 2(Switch to 1.5 for visual understanding) :


(PS:Kimi 2最终推测的答案是hardline)
又或者Qwen3-Max-Preview:


全都得不到正确的结果。
AI不懂符号分割与组合
对该现象进行分析,VYU团队认为,根本原因在于AI靠模式匹配,不懂文字结构。
人类之所以能“读懂”,是因为我们依赖结构先验——知道汉字由偏旁部首组成,知道英文是按字母组合的。
而大模型只是把文字当作“图片模式”来识别,没有符号分割与组合的机制。
于是,只要文字稍作扰动(但人类依旧能看懂),AI就会彻底崩溃。

这个问题之所以值得研究,是因为它关系到AI落地的核心挑战:
在教育和无障碍应用里,AI可能无法正确识别“非标准文本”。
在历史文献与科学笔记整理中,AI无法像人类一样从残缺文字中恢复含义。
在安全场景里,攻击者甚至可以利用这种“盲点”绕过AI审查。
VYU团队认为,要想让AI拥有类似人类的韧性,必须重新思考VLMs如何整合视觉与文本——
也许需要新的训练数据、更注重分割的结构先验,或者全新的多模态融合方式。
更重要的是,这一结果也提醒我们:人类的阅读理解从来不是单一模态的过程,而是依赖多重感知与推理的综合能力。
论文链接:
https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf
张扬
热门专题
热门推荐
一、授予系统权限并启动基础服务 想让BetterTouchTool真正“活”起来,第一步就得打通系统权限。它需要“辅助功能”权限来监听你的触控板事件,也需要“屏幕录制”权限来执行一些窗口操作。这两项权限缺一不可,否则你会发现手势做了,但电脑毫无反应。 具体操作其实不复杂:先进入系统「设置」-「隐私与
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法 笔记本玩游戏,最扫兴的莫过于画面突然卡顿、帧率断崖式下跌。很多时候,问题并非出在硬件本身,而是Windows 11默认的电源策略在“拖后腿”。为了省电,系统会动态调节处理器频率、让核心休眠,甚至给显卡设置功耗墙,这直接限制了硬
macOS更新失败?别慌,这五步能帮你搞定 升级macOS时,进度条卡住不动、弹窗提示“无法验证更新”或者干脆报错退出,这事儿确实让人头疼。其实,这些看似随机的故障,背后通常逃不出几个核心原因:存储空间不连续、网络连接不干净、缓存文件有冲突,或者磁盘底层出了点小状况。别担心,按照下面这套经过验证的步
Linux下使用Jattach工具诊断Ja va进程 零停机获取Dump信息 开门见山,先说一个核心判断:jattach 并非 JDK 自带工具,也不能直接替代 jstack。但它的价值在于,能在某些棘手场景下,绕过 JVM 的安全限制成功获取 dump。当然,这有个前提——目标 JVM 的 Att
Tyk Dashboard 启动失败?从配置到排查的完整指南 在Linux上部署Tyk,可不是简单的apt install或yum install就能搞定。它背后依赖着MongoDB和Redis,并且对配置顺序有严格的要求。跳过其中任何一环,tyk-dashboard服务很可能就会卡在502错误,或





