阿里字节同日上线图像大模型，激战"春节档"

时间：2026-02-11 14:58

AI应用掀起春节大战的同时，基础大模型也在加速上架“春节档”。2月10日，阿里云发布新一代图像生成基础模型Qwen-Image-2 0，而千问的新一代基座模型Qwen3 5也已经在路上。同一天，字节

AI应用掀起春节大战的同时，基础大模型也在加速上架“春节档”。

2月10日，阿里云发布新一代图像生成基础模型Qwen-Image-2.0，而千问的新一代基座模型Qwen3.5也已经在路上。同一天，字节跳动旗下剪映宣布上线新一代图像生成模型——Seedream 5.0预览版，距离上一代模型（Seedream 4.5）发布仅两个多月。

临近春节，图像生成大模型发布按下加速键，事实上，伴随着AIGC落地加速，在图像生成领域，谁能从“生成好看的图” 率先转向 “高效解决实际问题”，正在成为模型竞争的关键。

Qwen-Image-2.0对阵Seedream 5.0

尽管同日发布，两款模型在技术路径和生成效果上有着一定的差异。

具体来看，字节跳动文生图模型主要升级点为首次支持检索生图，对提示词的理解准确性增强、支持更细节、精细纹理的图像生成，允许用户精确调整图像。而阿里的Qwen-Image-2.0则是Qwen-Image项目自2025年5月启动后，首次将生图和编辑两条支线迭代的模型能力统一整合到单一模型架构中，提升了中文汉字渲染方面能力，并输入提示词扩展到1K token，优化了对超长文字和复杂指令的渲染。

第一财经记者分别对Qwen-Image-2.0和Seedream 5.0进行了同题测试，以相同的提示词分别请Qwen-Image-2.0和Seedream 5.0生成了《清晨雾中的瑞士阿尔卑斯山》和《无厘头美食番<三国演义>》两张图片，Qwen-Image-2.0和Seedream 5.0分别作答如下：

从生成效果来看，两大模型在生成图片的清晰度和细致度上都有了较大的提升，对于薄雾的层次、水中倒影、兵器造型的餐具等都能够准确理解和生成，总体上，Qwen-Image-2.0的画风更偏写实，而Seedream 5.0则更具美感。但在具体指令的理解准确度上，模型仍存在一定的偏差，例如Seedream 5.0对兵器造型的餐具理解停留在西餐而非火锅餐具，而Qwen-Image-2.0对关羽的“红脸”的体现不足。

公平起见，记者将两道测试分别给了豆包和kimi评判“谁更符合原提示词的需求？”，发现豆包和kimi做出了同样的判断。在《清晨雾中的瑞士阿尔卑斯山》中，它们选择了Qwen-Image-2.0胜出，在《无厘头美食番<三国演义>》中选择Seedream 5.0胜出。

kimi认为，阿尔卑斯山场景（写实风景）中，Qwen-Image-2.0的细节精度拉满、纹理清晰，而Seedream 5.0更重氛围感营造，朦胧诗意，偏印象派，但偏“油画感”，细节被柔化。而三国演义场景（卡通萌系）中，kimi认为，Qwen-Image-2.0漏读关键词“举起”而更像“围坐”，Seedream 5.0更体现出了热血欢乐氛围，无厘头解构感强。最终，kimi给出的判词是：“Qwen-Image-2.0像严谨的工程师，Seedream 5.0像懂流量的设计师——没有绝对优劣，只有场景适配。”

图像编辑方面，记者实测过程中发现，在剪映平台通过Seedream 5.0 Preview生图后，图片可调整范围包括裁剪、画质、像素等，但无法在生成过程中或完成进行局部调整。Qwen-Image-2.0则可在对话中直接根据指令调整图片，不过，图像编辑的准确度仍有待提升。记者尝试让Qwen-Image-2.0在《无厘头美食番<三国演义>》图中加入一个碗，Qwen-Image-2.0选择直接将火锅的外壳换成了碗，再次追加指令后，Qwen-Image-2.0成功加上了碗，甚至自主加上了桌子，展现了一定的逻辑推理能力，但碗内的食物又与火锅场景有一定脱离。

总体来看，比起会“画图”，步入2026年，图像生成模型都在往真正解读用户意图、准确理解语义、具备可控编辑能力、根据真实场景及需求智能推理的方向去。换句话说，比起“能不能画”，大模型们转向了“画得是否符合使用场景”。但在复杂且非专业指令的理解以及图像可控编辑的“深水区”，头部厂商的真正较量才刚刚开始。

从“会画”到“能用”

“会办事”，是这一年无论大模型还是AI应用都在强调的方向，图像模型接下来要面临的问题则更具体：“这张图能解决什么问题？”

千问大模型高级解决方案架构师熊撼天在接受包括第一财经在内的媒体采访时提到，从2024年开始，文生图或图生图开始在偏C端或个人使用的场景中落地，但在真正的“企业级”应用层面，离落地始终有距离，实际上是“生成不可控”的问题一直解决得不是很好，而随着模型对语义的理解及模型能力的上限更高后，这些问题正在技术层面被攻克。

围绕着如何让图片更“可用”的竞争，图像模型在技术升级的同时，开始围绕生态、场景分化。

目前，字节已将 Seedream 5.0 深度集成到剪映、CapCut、即梦 AI等字节生态体系平台，方便创作者直接完成生图、分镜、视频创作、分发抖音等操作，支持2K与4K分辨率输出，限时免费使用，未来计划在美国市场逐步开放，以此来巩固字节跳动在内容创作领域的优势地位。CapCut海外最新账号发文称，Seedream 5.0 对标Nano Banana Pro，但价格便宜得多。记者了解到，Qwen-Image-2.0 也将在正式发布时上线阿里千问APP，未来，Qwen-Image-2.0与阿里系电商等业务的打通也成为业内关注的方向，Qwen-Image-2.0或许将更多落向电商、专业PPT、海报设计等场景。

未来一年，图像模型可能围绕怎样的方向发展？对此，千问Qwen视觉生成负责人吴晨飞表示，Qwen-Image-2.0升级的核心之一是“信息图”。信息图可以理解为“爸爸图”，每一张“爸爸图”中都包含很多的子图，每一个子图有各自的细节。在他看来，“信息图”是目前生图领域的一个大趋势，“生成一张图”不再是传统意义上的“一张图”，而是一口气生成了很多张关联图片，这种能力在漫画、复杂海报、PPT制作等领域非常重要。除此之外，当生成非常多文字或复杂结构内容时，Qwen-Image-2.0仍可能出现幻觉和错误，这也是下一步要探索的方向。

AIGC设计师石恕之则提到了行业内对“图层分离”的渴望，他形容这是整个AIGC平面市场的需求。这意味着让大模型生成的图片可解耦，像PS一样实现图层分离与编辑，对工业流程来说有着巨大价值，目前图像模型仍未真正触及。吴晨飞提到，分层模型也会是Qwen-Image下一步去探索的另一个重点。

“除了技术层面，视觉模型发展更多的痛点还是与应用场景的结合。”熊撼天表示，如何将现在模型能力的迭代，去结合现有的业务场景快速落地，也是模型发展的一大挑战，这之中也藏着中国厂商“弯道超车”的机会。比如在短剧或漫剧的AIGC生成领域，熊撼天提到，中国漫剧的发展速度已经远超国外了，形成了一个庞大的产业链。漫剧产业链公司会拿着最新一代的模型快速在生产级的场景里落地，“单剧集做一个动漫视频的钱可能马上就会从几百块钱减少到几十块钱。”

强调“办事能力”的同时，行业也在期待应用反哺技术。熊撼天认为，在技术已经追平的情况下，中国企业更擅长做应用，而应用的土壤会催生出一些新的产业链，新的产业链也会反复去迭代模型的能力。

来源：https://www.163.com/dy/article/KLGABP8U0519DDQ2.html