刚刚,DeepSeek大更新,终于「开眼」了
原以为这个疯狂的 AI 疯狂更新应该已经告一段落了,没想到上周才发完 V4 的 DeepSeek ,突然端出一个更大的惊喜。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
就在刚刚,DeepSeek 上线了识图模式,显示正在灰测中。这意味着讨论了一整年的 DeepSeek 多模态能力,终于来了!

目前 DeepSeek 网页版和 App 更新后都有可能被灰测到识图模式,我们第一时间进行了实测。
DeepSeek 负责多模态的研究员陈小康在 X 上发文:Now, we see you,并配上了一张图。我们就让 DeepSeek 来解读一下这张图究竟意味着什么。

结果显示,它能识别出这张图背后的隐喻。虽然图中没有任何关于 DeepSeek 的字眼,但它结合对发布者身份和图像的识别,推断出这是关于 DeepSeek 多模态能力的更新。
最后给出一句十分到位的总结:那个看不见世界的鲸鱼,现在终于睁开眼了。

思考过程,比答案更有趣
比起回答结果,我们发现 DeepSeek 识图模式的思考过程更有意思。

上下滑动查看完整思考过程
过去 AI 来看那张推特截图,大概率是老老实实描述:「两只蓝色鲸鱼,左边戴眼罩,右边没戴。」
但 DeepSeek 它上来就开始追问:这人是谁?他为什么发这个?鲸鱼 logo 代表什么?眼罩上的 XX 又在暗示什么?

这才是我们刷到一张梗图时脑子里真正发生的事。没人会先数鲸鱼有几只,我们关心的是谁在对谁说话,说的是什么潜台词。
而且它还会来来回回的自我纠正。
比如它甚至一度把图中的眼罩联想到《天元突破》里卡米那的眼镜,然后自己打脸:「不,这太宅男向了。」「等等,仔细看……」 「再换个角度……」 。
一场自我发起的“小型答辩会”
前面那些推理、联想、自我纠正,都挺精彩。但整段思考过程里最反常识的部分,其实是它推理到快收尾时,突然自己喊了个暂停,给自己开了一场小型答辩会。

它列出三个问题自问自答,先确认客观事实,再推测事件性质,最后才做解读。 DeepSeek 把这个我们自己都没意识到的思维习惯,做成了识图的思考逻辑。
就像我们平时给结论之前,脑子里也会过一遍:「等等,这个前提对吗?那个假设站得住吗?万一我理解错了方向呢?」
经典测试:数手指与“爱心”
我们还把经典的 AI 测试题——数手指,抛给了 DeepSeek。

它思考了一通,还是回答错了,中间还吐槽了一句:「我真的是数晕了。」
不过如果我再引导一下,它还是可以回答正确。

另外一个数手指的测试中,第一次回答错误之后,我没给答案,只是让它再想想,也能给出正确的回答。


我们还试了试一个经典的「爱心」测试,这个图之前难倒了所有 AI , DeepSeek 同样没有能识别出来。

日常识图:准确率与局限性
抛开这些难度较高的极限测试,初步测试下来,DeepSeek 识图的准确率其实还是比较高,不开思考模式的话甚至半秒就能给出回答。
比如这个电影剧照的识别,应该是已经在数据库内了。

对于抽象图片的理解也十分到位。

优衣库这个商品图的理解也没有问题。

不过这个识图的过程应该是没有联网搜索,只能基于知识库回答,所以一些比较新的东西,就无法识别,比如苹果这个新的吉祥物 Finder 酱。

而且识图模式上传的文件格式也有限制,比如不支持 HEIF 格式。

结语:睁开眼,只是开始
DeepSeek 识图模式上线,意味着这只鲸鱼终于开眼了,但也许只是刚刚开始。
DeepSeek 多模态更多的能力可能很快也会陆续更新,补上这块短板后,整个国产模型的格局可能也会再次迎来微妙的变化。
我们将持续跟大家分享 DeepSeek 识图模式更多的体验,也欢迎大家体验后与我们分享有意思的小技巧和细节。
相关攻略
DeepSeek“识图模式”悄然上线,多模态能力正式揭幕 4月29日,一个值得关注的变化在DeepSeek的产品界面悄然发生。细心的用户发现,其网页版和移动应用端的对话模式选择区,新增了一个与“快速模式”、“专家模式”并列的选项——“识图模式”。 实际试用下来,这个模式的核心功能很明确:允许用户直接
一、模型定位与适用场景差异 当你在为文心一言智能体选择核心模型时,如果对文心4 5和DeepSeek感到犹豫,这背后反映的其实是两者在根本定位、能力边界与应用场景上的显著不同。简单来说,这并非一个简单的“谁更好”的问题,而是“谁更合适”的选择。 文心4 5的定位,更像是一个全能的“多面手”。它旨在构
DeepSeek V4超长文本截断?五种技术方案帮你破局 处理超长文档时,如果发现DeepSeek V4模型的输出似乎丢失了后半部分的关键信息,这通常不是模型能力的问题,而是触发了默认的上下文窗口限制。别担心,这就像给引擎换条更长的跑道——下面这五种经过验证的技术方案,能帮你有效扩展模型的“视野”。
别再问废话了!DeepSeek提问的“万能公式” 有没有遇到过这种情况?向DeepSeek提问,得到的回答却模棱两可,甚至完全跑偏。问题往往不在于模型本身,而在于提问的方式——结构松散、目标模糊的提示词,很难激发出模型的最佳性能。 其实,想让DeepSeek给出精准、高质量的响应,有一套可以遵循的通
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源 北京时间今日凌晨,AI领域又迎来一个重磅消息。DeepSeek正式开源了其全新的视觉多模态模型 Janus-Pro-7B。这可不是普通的更新,从已披露的测试结果看,它在GenEval和DPG-Benc
热门专题
热门推荐
一部拿过艾美奖的旗舰剧,拍到第五季还在往配角阵容里塞人。这不是扩张,是修补。 两个新面孔,两种修补逻辑 新加入的两位,分别是Sydney Park饰演的Leah——Cory Ellison的新助理,以及Jeff Wilbusch饰演的Roman——UBN新闻部门的安保主管。 这两个角色的设置,背后是
中国版权协会发布新规,为微短剧版权保护“划重点” 最近,版权领域有个新动向值得关注。中国版权协会正式发布了《关于强化微短剧领域“通知—删除”规则的工作指南》。这份文件的目标很明确:就是要切实维护微短剧作品权利人的合法权益,在权利人、网络服务提供者和用户之间找到一个更好的利益平衡点,从而推动整个微短剧
一部拍了26年的剧集,一对被观众追了20多年的搭档,一个拍了却没播的吻戏——这背后不是八卦,是内容控制权的一场小型博弈。 被剪掉的镜头:拍了两种版本,播出的是“差点亲上” 最近,62岁的玛莉丝卡·哈吉塔向《好莱坞报道者》透露了一个有趣的细节:她和65岁的克里斯托弗·梅洛尼为《法律与秩序:特殊受害者》
总部位于韩国的加密货币风险投资公司哈希已获得阿联酋金融中心阿布扎比全球市场(ADGM)颁发的金融服务许可证。 对于关注亚洲与中东加密资本流动的观察者来说,这无疑是一个值得关注的新动向。总部位于韩国的知名加密货币风险投资公司Hashed,正式获得了阿联酋核心金融中心——阿布扎比全球市场(ADGM)颁发
吉利银河M7远航家今日正式上市,定位于主流精品插电式混合动力SUV 家庭用户的选择清单里,今天又多了一个实力派选手。吉利银河M7远航家正式登场,瞄准的正是主流精品插混SUV市场。新车一口气推出了四款配置,限时指导价定在了10 98万元到13 78万元这个区间,意图很明确:用丰富的配置梯度,精准覆盖不





