首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek终于「开眼」!首发深度实测:12张图看清它的识图极限

DeepSeek终于「开眼」!首发深度实测:12张图看清它的识图极限

热心网友
78
转载
2026-04-30

在DeepSeek一记V4重拳彻底引爆科技圈的五天后,DeepSeek内部负责多模态的研究员陈小康在X上发布了这么一条帖子,并且附上了文字:

Now, we see you.

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈



(图源:雷科技)

没错,就是字面意思。

当所有人还在为V4的价格和编码能力而惊叹时,DeepSeek突然开测识图模式,全网热议了一整年的多模态能力总算是落地了。

这更新速度,不禁让人怀疑,梁文锋是不是为了不被网友做成“不务正业”的梗图,连夜把开发团队锁在了机房里。

需要注意的是,这次测试并非全量测试,而是小范围的灰度测试。只有部分用户能在DeepSeek最新App或网页版里看到,此时输入栏上方除了原有的快速模式、专家模式外,还会新增一个识图模式按钮,并标注“图片理解功能内测中”。



(图源:雷科技)

有趣的是,笔者的同事们全部都没能被灰度测试到,被DeepSeek最新抽到的人数居然高达0人!

幸运的是,笔者居然还真就成了那万中无一的天选之人。

既然这么巧合,不给大家测试一番,多少有点过意不去。这次精心选择了12张图片,让大家好好看看DeepSeek到底能看到什么?

理解能力强,知识库待更新

话不多说,我们直接从画面描述开始测试。

之所以将这个放在第一位,是因为这是视觉理解在实际场景中应用最多的一项功能。

以日常生活为例,在路边看到一株叫不出名字的奇葩植物,或者想找找某款穿搭的同款链接,甚至是在异国他乡对着满屏外文菜单发愁时,大家现在的第一反应多半是拍张照丢给AI问一句:“这是啥?”

这种“所见即所问”的交互,本质上就是在考验模型的视觉理解功底。

而这次准备了三张图用作测试,分别是一张Coser图像、博物馆里的见闻以及一张信息量繁杂的活动现场图片。



(图源:雷科技)

提示词:请详细描述一下这张图,字数控制在250字以内。

对于第一张图片,DeepSeek的回答是这样的:



(图源:雷科技)

DeepSeek不但完整描述了整个画面细节,而且还认出了图片里的角色,甚至连拍摄背景、打光等元素都如实还原了出来。用这套文字去文生图模型里,直接就能还原一张高度类似的图片。

要知道,这个效果可是没开思考模式的。

对于第二张图片,DeepSeek的回答是这样的:



(图源:雷科技)

不打开思考模式的情况下,这次回答就是很单纯的画面描述,没有对于物品的解析,但是描述本身还是挺到位的。最后还能看出来这款物品富有浓郁的中东或中亚艺术风情,很可能是一件珍贵的宫廷或宗教礼仪用具。

那么,要是我打开思考模式呢?

这下开始解析了。首先是对物品进行拆解,定义它是什么、有什么特征、所处的环境怎么样。



(图源:雷科技)

然后就开始下定义了,它认为是清代痕都斯坦风格。



(图源:雷科技)

那么清代痕都斯坦风格是啥呢?根据Wiki解释,这是18世纪清朝乾隆时期引入的中亚伊斯兰风格玉器,主要源自北印度莫卧儿王国。

刚好,去看的就是莫卧儿王国展,还真给它找出来了。



(图源:雷科技)

对于第三张图片,DeepSeek的回答是这样的:



(图源:雷科技)

除了画面描述、文字信息读取,这次它还果断判断这是属于中国建博会·广州的活动现场图片。只能说,图片理解这块确实没毛病。

当然了,上面这些内容都是看图说话。那么更新一点的信息识别如何呢?

这次准备了近些年的三张图片,提示词:图片里的东西是什么?并说出你的依据,字数控制在200个字以内。



(图源:雷科技)

对于第一张图片,DeepSeek的回答是这样的:



(图源:雷科技)

嗯...至少能从图片里看出宝可梦的信息。但是《Pokopia》这款游戏还是太新了,明显不在DeepSeek的知识库里。

对于第二张图片,DeepSeek的回答是这样的:



(图源:雷科技)

这次倒是判断得很准确,这确实是一张从3dm扒下来的FM24战术图。

对于第三张图片,DeepSeek的回答是这样的:



(图源:雷科技)

不难看出,它确实缺乏了最新的产品信息,但居然能通过副屏来判断成小米11 Ultra。只能说,DeepSeek识图在逻辑这块真的拿捏了。

逻辑问题,同样搞不定

接下来,我们来试试元素识别。

这部分,说人话就是考验AI的眼力见了。里面有些题目,哪怕是真人来了也不一定能做出来。

顺便看看DeepSeek会不会也是个色盲。

这类图片在网上那叫一个多啊,干脆直接上谷歌搜罗了这些图来测试用,大家也别客气。



(图源:雷科技)

先测第一个,提示词:请直接告诉我这张图中有几只老虎。

让人想不到的是,这个问题居然能让DeepSeek开始自我博弈起来,不断地否认自己上一次数出来的结果。最后更是在两次数出6只老虎的情况下,坚定地回答了7只出来。



(图源:雷科技)

问题在于,这图里有10只老虎,这就让人很尴尬了。

再测第二个,提示词:这张图中隐藏着一组数字,请你直接告诉我其中有几个数字,它们分别是什么。



(图源:雷科技)

咋说呢,这个图之前就难倒过所有AI, DeepSeek同样没有能识别出来。

第三张图也是如此。可以说,这一类基于反色、碎块化的图片,依然是视觉理解的一生之敌。



(图源:雷科技)

最后是三道图形逻辑题。之前DeepSeek-V4在做逻辑题的时候表现就一般,不知道应对图形逻辑题的效果如何。

据说这三道都是行测例题,我们让DeepSeek来解答一下。



(图源:雷科技)

第一道,思考了整整三分钟。



(图源:雷科技)

答案是错的,正确答案是D。这图的逻辑其实还挺好懂的,就是前面两格单白/单黑的地方,第三格是白的;前面两格双白/双黑的地方,第三格就是黑的。

第二道题自然也是不负众望,错!

没想到,在已经失去希望的情况下,经过六分钟深度思考后,这第三道题,居然是让DeepSeek给答对了!



(图源:雷科技)

反复试了两遍,只能说这道题它确实能推理出来。虽说是采用算数的形式,但确实实现了零的突破。

只能说,行测备考你用这个,这辈子也是有了。

总结:识图只是前菜,多模态大招还在路上

完整测试下来,对DeepSeek这次的识图能力算摸透了。

DeepSeek基础识图的准确率其实还是比较高的,然后它的推理思路本身也算有条不紊。但是目前知识库里保存的信息还不够多,而且面对难度较高的极限测试,基本上就没有能做对的时候。

但是,这次起码不会出现思考半天吧啦吧啦没完没了的情况。



(图源:DeepSeek)

从测试结果来看,这次识图更像是过渡期的开胃菜。这个识图模式,更接近一个挂载在DeepSeek-V4主干上的视觉理解模块,而并非DeepSeek-V4本身的多模态能力。

但至少,它证明DeepSeek团队在视觉理解上已经跑通了,这明显是在为接下来的原生多模态大招铺路。可以预见的是,补上这块短板后,整个国产模型的格局必然会再次发生改变。

至于没拿到资格的也别急,就DeepSeek目前这个效果,豆包和千问其实够用了。



来源:https://www.163.com/dy/article/KRNBHA7D051100B9.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

多模态能力来了!DeepSeek上线“识图模式”
科技数码
多模态能力来了!DeepSeek上线“识图模式”

DeepSeek“识图模式”悄然上线,多模态能力正式揭幕 4月29日,一个值得关注的变化在DeepSeek的产品界面悄然发生。细心的用户发现,其网页版和移动应用端的对话模式选择区,新增了一个与“快速模式”、“专家模式”并列的选项——“识图模式”。 实际试用下来,这个模式的核心功能很明确:允许用户直接

热心网友
04.29
文心一言智能体与模型选择_文心4.5与DeepSeek区别
AI
文心一言智能体与模型选择_文心4.5与DeepSeek区别

一、模型定位与适用场景差异 当你在为文心一言智能体选择核心模型时,如果对文心4 5和DeepSeek感到犹豫,这背后反映的其实是两者在根本定位、能力边界与应用场景上的显著不同。简单来说,这并非一个简单的“谁更好”的问题,而是“谁更合适”的选择。 文心4 5的定位,更像是一个全能的“多面手”。它旨在构

热心网友
04.29
DeepSeek V4上下文截断怎么破_滑动窗口与注意力机制配置【长文】
AI
DeepSeek V4上下文截断怎么破_滑动窗口与注意力机制配置【长文】

DeepSeek V4超长文本截断?五种技术方案帮你破局 处理超长文档时,如果发现DeepSeek V4模型的输出似乎丢失了后半部分的关键信息,这通常不是模型能力的问题,而是触发了默认的上下文窗口限制。别担心,这就像给引擎换条更长的跑道——下面这五种经过验证的技术方案,能帮你有效扩展模型的“视野”。

热心网友
04.29
别再问废话了!DeepSeek提问的“万能公式”
AI
别再问废话了!DeepSeek提问的“万能公式”

别再问废话了!DeepSeek提问的“万能公式” 有没有遇到过这种情况?向DeepSeek提问,得到的回答却模棱两可,甚至完全跑偏。问题往往不在于模型本身,而在于提问的方式——结构松散、目标模糊的提示词,很难激发出模型的最佳性能。 其实,想让DeepSeek给出精准、高质量的响应,有一套可以遵循的通

热心网友
04.29
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
AI
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Benc

热心网友
04.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

勇者斗恶龙7重制版包袱皮披风获取方法
游戏攻略
勇者斗恶龙7重制版包袱皮披风获取方法

勇者斗恶龙7重制版包袱皮披风速刷指南:获取方法与效果详解 在经典RPG《勇者斗恶龙7:伊甸的战士们》重制版中,“包袱皮披风”是提升刷宝效率的关键装备。这件披风的唯一效果是显著增加战斗后怪物掉落道具的几率,对于收集稀有锻造材料、完整装备图鉴或推进主线卡关的玩家而言,是不可多得的效率神器。那么,这件高性

热心网友
04.30
勇者斗恶龙7重制版盗贼的钥匙怎么获得
游戏攻略
勇者斗恶龙7重制版盗贼的钥匙怎么获得

勇者斗恶龙7重制版盗贼钥匙获取攻略:开启早期宝箱的关键道具 在《勇者斗恶龙7》重制版的游戏初期,你是否常为那些上锁的宝箱感到困扰?这些无法开启的容器里往往藏着宝贵资源。本篇将详解如何取得第一把永久钥匙——盗贼的钥匙,它是解锁前期各类普通宝箱的唯一途径,能让你的冒险旅程更加顺利。 勇者斗恶龙7重制版盗

热心网友
04.30
USD.AI为何成AI金融基础设施的新焦点?
web3.0
USD.AI为何成AI金融基础设施的新焦点?

USD AI:当合成美元遇上AI算力融资,一个新叙事正在成型 加密世界从不缺少新故事,但能让市场侧目的,往往是那些能将多个热门赛道巧妙缝合的创新。最近,一个名为USD AI的项目正引发广泛讨论。它并非又一个简单的DeFi收益农场,而是精准地站在了合成美元、真实收益与AI基础设施融资这三个领域的交汇点

热心网友
04.30
仁王3东国无双BOSS无伤思路攻略
游戏攻略
仁王3东国无双BOSS无伤思路攻略

仁王3东国无双BOSS无伤打法全攻略:击败本多忠胜技巧详解 一、核心无伤思路与原则 想要在《仁王3》中无伤击败“东国无双”本多忠胜,首要任务是调整战斗思维——核心理念是“生存优先,输出在后”。这位战国第一猛将攻击力极高、范围极大,但几乎所有招式都有明显的起手动作。任何贪刀或判断失误都可能被秒杀。因此

热心网友
04.30
勇者斗恶龙7重制版竞技场席德怎么打
游戏攻略
勇者斗恶龙7重制版竞技场席德怎么打

勇者斗恶龙7重制版竞技场席德怎么打?最详细攻略与打法技巧解析 在《勇者斗恶龙7》重制版的隐藏竞技场中,破坏邪神席德是一个机制独特、难度极高的守关Boss。许多玩家初次挑战时反复受挫,其难点并非简单的数值压制,而在于一套配合严密、环环相扣的致命技能组合。未能理解其行动模式,极易导致全员覆没。不过无需焦

热心网友
04.30