游乐游手机版
首页/AI教程/文章详情

DeepSeek又出连招,重磅多模态图像生成模型性能超越DALL-E3

时间:2026-06-30 15:51
DeepSeek发布多模态模型Janus-Pro-7B,在GenEval和DPG-Bench中击败DALL-E3与StableDiffusion。其采用理解与生成视觉编码解耦架构,参数量仅7B和1B,支持浏览器本地运行,极大降低图像生成与理解门槛,使图像处理人人可用。这标志着多模态技术进入本地化普及新阶段。

AI时代就这么悄无声息地来了。

谁能想到,今年春节最火的不再是互联网红包大战,也不是谁和春晚合作了,而是一家AI公司。

各家大模型公司春节前都赶着更新了一波产品,但最吸睛的,还是去年才崭露头角的DeepSeek(深度求索)。1月20日晚,DeepSeek发布推理模型DeepSeek-R1正式版,训练成本不高,性能却直接对标OpenAI的o1推理模型,而且完全免费开源。消息一出,行业震动。

这是第一次国产AI在全世界范围内,尤其是美国科技圈,引发如此强烈的反响。开发者们纷纷表示,正在认真考虑用DeepSeek“重构一切”。经过一周的发酵,1月刚上线的DeepSeek移动应用,直接登顶美区苹果应用商店免费App榜首——不仅超越了ChatGPT,还超越了所有其他热门应用。这还没完,DeepSeek的成功甚至直接反映到了美股市场上:一家没有动用巨量昂贵GPU就训练出顶级模型的公司,让市场重新审视AI的训练路径,英伟达股价一度暴跌17%。

而故事还在继续。1月28日凌晨,除夕夜前一晚,DeepSeek又开源了多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。

DeepSeek真要血洗AI圈了吗?从推理模型到多模态模型,“用DeepSeek重构一切”,会是蛇年开年的主旋律吗?

Janus Pro:多模态模型创新架构的验证

这次DeepSeek深夜发布了两款模型:Janus-Pro-7B和Janus-Pro-1B(1.5B参数量)。从命名就能看出,这是2024年10月首次发布的Janus模型的升级版。

和DeepSeek的一向风格一样,这次又采用了创新架构。市面上不少视觉生成模型都用统一的Transformer架构来处理文生图和图生文任务,但DeepSeek走了另一条路:他们提出将理解(图生文)和生成(文生图)的视觉编码进行解耦。这么做的好处是提升了模型训练的灵活性,有效缓解了单一视觉编码带来的冲突和性能瓶颈。

为什么叫Janus?这来自古罗马的门神,通常被描绘成有两张面孔、分别朝向相反方向。DeepSeek的解释很形象:模型就像Janus一样,用不同的“眼睛”看向视觉数据,分别编码特征,然后用同一个“身体”(Transformer)去处理这些信号。

在Janus系列模型中,这种新思路已经展现出不错的潜力。团队表示,Janus模型指令跟随能力强,有多语言能力,模型更“聪明”,能读懂meme图片,还能处理LaTeX公式转换、图转代码等任务。而到了Janus Pro,团队对训练流程做了优化,直接实现了在GenEval和DPG-Bench基准测试中击败DALL-E 3和Stable Diffusion的成绩。

与模型一同发布的,还有Janus Flow——一个旨在统一图像理解与生成任务的新型多模态AI框架。Janus Pro模型能用简短的提示词提供更稳定的输出,视觉质量更好,细节更丰富,还具备了生成简单文本的能力。

这个模型既能生成图像,也能描述图片内容,比如识别地标景点(例如杭州西湖)、识别图像中的文字,甚至对图片中的相关知识(如“猫和老鼠”蛋糕)进行介绍。X上已经有不少用户开始上手体验了。

上图左侧是图像识别测试,右侧是图像生成测试。

可以看到,在高精度读图方面,Janus Pro的表现相当不错,能够识别数学表达式和文字的混合排版。未来如果搭配推理模型使用,可能会有更大的应用空间。

1B和7B的参数量,或能解锁新应用场景

在多模态理解任务上,Janus-Pro采用SigLIP-L作为视觉编码器,支持384x384像素的图像输入;图像生成任务中,则使用一个来自特定来源的分词器,降采样率为16。不过坦白说,这个图像规模尺寸仍然偏小。X上有用户分析认为,Janus Pro模型更多是方向性的验证——如果验证通顺,后续就会推出可以直接投入生产的模型。

但值得注意的是,Janus Pro的创新不只体现在架构上。在参数量方面,这次也是一次新的探索。对比项DALL-E 3之前公布的参数量是120亿,而Janus Pro的大尺寸模型只有70亿。在这么紧凑的尺寸下,能做出这样的效果,已经很不容易。尤其是1B版本的Janus Pro,只用了15亿参数。外网上已经有用户将对模型的支持添加到了transformers.js——这意味着该模型现在可以在WebGPU的浏览器中100%本地运行!

虽然截至发稿,笔者还没能在网页版上真正使用到Janus Pro新模型,但参数量小到能在网页端直接运行,这本身就是一个令人惊叹的进步。这意味着图片生成和图片理解的门槛正在进一步降低。我们有机会在更多原本无法使用这些功能的地方看到AI的身影,从而改变日常生活。

2024年的一大热点,是如何让AI硬件通过多模态理解更好地介入我们的生活。而参数量越来越低的多模态模型,或许让我们可以期待:端侧运行的模型,将进一步推动AI硬件的爆发。

DeepSeek搅动新年,万事万物可以用中国AI重做一遍?

AI世界一日千里。去年春节前后搅动全球的是OpenAI的Sora,但一年下来,中国公司在视频生成方面已经迎头赶上,让年底Sora的正式发布显得有些平淡。而今年,搅动世界的变成了中国的DeepSeek。

DeepSeek算不上传统的科技巨头,却用远低于美国大模型公司的GPU卡数和成本,做出了极具创新性的模型。美国人纷纷感叹:R1模型的训练只花了560万美元,这甚至只相当于Meta GenAI团队一位高管的年薪——这到底是什么神秘的东方力量?

一个模仿DeepSeek创始人梁文峰的parody账号直接在X上发了一张有趣的图片:

图片借用了2024年全球爆火的土耳其射击选手迪凯奇的梗。在巴黎奥运会10米气手枪决赛中,51岁的迪凯奇只戴了一副普通近视眼镜和一副睡眠耳塞,单手插兜,潇洒摘银。而其他所有选手都戴着两块专业镜片和防噪声耳塞。这个画面,和DeepSeek用极其低廉的成本挑战OpenAI的“非对称竞争”,有异曲同工之妙。

自从DeepSeek“破解”了OpenAI的推理模型,美国各大科技公司都背上了巨大压力。终于,Sam Altman也扛不住压力,出来回应了一段官方发言。

2025年,会是中国AI冲击美国认知的一年吗?DeepSeek手里还藏着什么秘密?这注定是个不平凡的春节。

来源:https://www.aiagiai.com/8141.html
上一篇AI2新模型OLMo2颠覆LLM格局训练过程全公开数据架构双升级 下一篇AI硬控拜年科技感十足的智能拜年新体验
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
企业组织级AI赋能具体实施方法
AI教程 · 2026-06-30

企业组织级AI赋能具体实施方法

前段时间收到一位读者的留言,希望聊聊企业级、组织级的AI赋能究竟该怎么落地。巧的是,前几天刚看到一份咨询调研机构的数据:对近一两年所有企业级AI赋能项目的统计显示,超过90%的甲方企业认为,AI赋能在核心业务价值链上没有发挥任何实质性作用。除了AI辅助办公、企业智能知识库这类边缘应用起到了一些辅助效

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统
AI教程 · 2026-06-30

Scrapy与Redis分布式架构的日本电商多平台数据聚合系统

从事日本电商数据聚合工作时,最大的难点在于要同时应对雅虎拍卖、煤炉(Mercari)、乐天和亚马逊日本站等截然不同的平台。以往使用单机爬虫,经常出现运行中崩溃的情况——单点故障、带宽利用率不足、数据存储混乱,这三大痛点令人困扰。 本文分享一套基于Scrapy + Redis的分布式爬虫方案,专门解决

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置
AI教程 · 2026-06-30

详细PuTTY 0.81安装教程 SSH远程连接与自定义路径设置

​ PuTTY(简称PT)是一款轻量级开源SSH Telnet客户端,凭借简洁高效的特性,多年来始终是系统管理员与开发者进行远程连接的首选利器。本教程将详细介绍PuTTY 0 81版本的完整安装过程,并指导您自定义安装路径,以便更灵活地管理SSH远程连接工具。 安装准备 首先需要说明的是,整个安装流

在线教育系统必备功能:直播课堂与题库考试架构
AI教程 · 2026-06-30

在线教育系统必备功能:直播课堂与题库考试架构

很多人一想到做在线教育系统,第一反应往往是先把直播间和课程播放器搭起来,觉得“能看课”就万事大吉了。真到落地那天才发现,系统能不能顺滑跑起来,关键全藏在那些细节里——课程怎么组织、学习进度怎么记、考试怎么处理、后台怎么管得住。前端看起来就几个页面,后端其实是一整条业务链路。不管你是要做在线教育APP

ZStack源码级AI诊断套件让故障排查秒出答案
AI教程 · 2026-06-30

ZStack源码级AI诊断套件让故障排查秒出答案

一次故障排查,到底要花多少时间? 运维人员处理私有云、虚拟化平台的问题,流程大致都是这样:先翻日志看现象,再去文档里找对应机制,然后搜社区有没有类似案例,最后综合判断给出答复。简单问题半小时,复杂问题可能要跨天——而这些时间里,大部分精力耗在了“找信息”而不是“做决策”上。 类似的问题,也许每天都在