人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

首页/科技数码/文章详情

人类秒懂，AI崩溃：一个简单测试，就让GPT-5、Gemini等顶级模型集体“翻车”

时间：2025-09-10 12:10

人类一眼就能看懂的文字，AI居然全军覆没。来自A*STAR、NUS、NTU、清华、南开等机构的研究团队，最近有个新发现：不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、A

人类一眼就能看懂的文字，AI居然全军覆没。

来自A*STAR、NUS、NTU、清华、南开等机构的研究团队，最近有个新发现：

不管是OpenAI的GPT-5、GPT-4o，还是谷歌Gemini、Anthropic Claude，甚至国内的Qwen、LLaVA，在面对一些“看得见但读不懂”的文字时，全都表现极差，直接“翻车”。

先切再叠，AI束手无策

VYU团队设计了两个小实验：

1、选取了100条四字成语，把每个汉字横切、竖切、斜切，再把碎片重新拼接。

人类读起来毫无压力，AI却几乎全错。

2、挑选了100个八字母英文单词，把前后两半分别用红色和绿色渲染，再叠加在一起。

对人类来说，这几乎不构成挑战——因为我们的视觉系统对红/绿通道异常敏感，大脑能自动分离颜色，然后拼出完整的单词。

但对AI模型来说，结果却完全不同：

即使是最新发布的大模型，在这些问题上也屡屡碰壁。

无论是Gemini 2.5 Pro:

还是Kimi 2（Switch to 1.5 for visual understanding）：

（PS：Kimi 2最终推测的答案是hardline）

又或者Qwen3-Max-Preview：

全都得不到正确的结果。

AI不懂符号分割与组合

对该现象进行分析，VYU团队认为，根本原因在于AI靠模式匹配，不懂文字结构。

人类之所以能“读懂”，是因为我们依赖结构先验——知道汉字由偏旁部首组成，知道英文是按字母组合的。

而大模型只是把文字当作“图片模式”来识别，没有符号分割与组合的机制。

于是，只要文字稍作扰动（但人类依旧能看懂），AI就会彻底崩溃。

这个问题之所以值得研究，是因为它关系到AI落地的核心挑战：

在教育和无障碍应用里，AI可能无法正确识别“非标准文本”。

在历史文献与科学笔记整理中，AI无法像人类一样从残缺文字中恢复含义。

在安全场景里，攻击者甚至可以利用这种“盲点”绕过AI审查。

VYU团队认为，要想让AI拥有类似人类的韧性，必须重新思考VLMs如何整合视觉与文本——

也许需要新的训练数据、更注重分割的结构先验，或者全新的多模态融合方式。

更重要的是，这一结果也提醒我们：人类的阅读理解从来不是单一模态的过程，而是依赖多重感知与推理的综合能力。

论文链接：

https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

张扬

来源：https://36kr.com/p/3460280911664772

上一篇京东+锦江，能否破局外卖？ 下一篇马斯克的8.5万亿美元市值梦，要靠机器人和Robotaxi实现

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-10

地下室发现尘封12年AMD前CEO旧PC苏姿丰签名推土机硬件

一位技工在客户家地下室发现一台属于AMD前CEORoryRead的旧PC，机箱上留有苏姿丰等高管签名，配置为推土机时代硬件且从未开机。这台电脑封存了AMD从推土机失败到Zen架构崛起的关键转折历史。

科技数码 · 2026-07-10

Laravel 12生态成熟助力全栈开发效率提升

Laravel12延续开发体验优势，在项目结构、查询构建、API开发、调试及性能上持续优化。其生态日趋成熟，形成Reverb、Pulse等完整工具链，覆盖API、SaaS、企业后台及AI应用开发。与Next js的组合逐渐流行，Laravel已演变为现代Web开发平台，保持社区活力。

科技数码 · 2026-07-10

Linux内核持续演进：Rust语言与零拷贝网络成新焦点

LinuxKernel6 15重大更新：Rust驱动正式入主线，NOVADRM成为首个实践案例；io_uring新增零拷贝网络接收，降低CPU开销与延迟；Btrfs增强实时zstd压缩、DirectIO及稳定性。内核同步推进安全化与高性能网络化。

科技数码 · 2026-07-10

谷歌Gemini进入Agent时代打造全天候AI助理

Google推出GeminiSpark、Omni等新功能。Spark可全天候在后台运行，主动处理邮件、日历等任务；Omni侧重视频理解与环境推理，布局世界模型。AI正从被动回答转向主动观察、规划与执行，标志着竞赛进入新阶段。

科技数码 · 2026-07-10

CPU-Z 2.20.2正式版发布支持Intel三大平台及AMD锐龙AI Max

CPU-Z2 20 2正式版发布，新增支持IntelPantherLake、WildcatLake、BartlettLake三大架构及AMD锐龙AIMax、Pro系列，加入锐炫G3识别库，修复缓存错误和锐龙77700X3D检测问题，免费下载。