首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里最强PS模型开源!0元速出氛围感写真,立即体验

阿里最强PS模型开源!0元速出氛围感写真,立即体验

热心网友
13
转载
2025-12-24


智东西
作者|江宇
编辑|漠影

智东西12月24日报道,今日,阿里Qwen团队正式开源图像编辑模型Qwen-Image-Edit-2511,这是继9月23日发布Qwen-Image-Edit-2509后的最新增强版本。


在此前的多个公开基准测试中,Qwen-Image系列已展现出较强的图像编辑性能,共获得12项SOTA(最佳表现)。在中文文字生成评测ChineseWord与LongText-Bench中分别领先GPT Image 1、Seedream 3.0等主流模型。

新版本则聚焦图像生成过程中的人物一致性问题,在单人连拍、多人物融合等任务中显著提升面部特征与风格的稳定性,同时集成了多个LoRA子模型,增强了图像编辑中的几何构造、光照控制、材质替换等能力。


智东西也在第一时间进行了实测。整体来看,Qwen-Image-Edit-2511在人像融合、LoRA光照控制、风格一致性方面表现出色,生成结果自然。但在镜头旋转、空间构图与几何推理类操作上仍存在明显误差。

Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511

魔搭社区:https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511

技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

一、新版本聚焦人物一致性与风格迁移,拓展多场景图像编辑能力

在此前版本的Qwen-Image中,Qwen团队首次构建了完整的图像生成与编辑框架,通过Qwen2.5-VL+VAE双编码机制配合MMDiT扩散架构,其中“MM”代表的是模型生成图像、文本等多模态内容的能力,“DiT”则代表了这是一个扩散Transformer。

Qwen团队在多个公开基准上对Qwen-Image进行了评估,比较对象为全球头部的开源、闭源图像生成模型。在通用图像生成测试GenEval、DPG和OneIG-Bench,以及图像编辑测试GEdit、ImgEdit和GSO上,Qwen-lmage超过了Flux.1、BAGEL等开源模型、字节跳动的SeedDream 3.0和OpenAI的GPT Image 1(High)。

在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型,包括SeedDream 3.0和GPT Image 1(High)。

此次发布的Qwen-Image-Edit-2511版本,则在图像编辑阶段进一步增强了人物一致性表达能力,并引入LoRA模块提升光照、材质与视角控制表现。

Qwen-Image-Edit-2511在保持人物一致性方面做出了重点升级。针对输入人像生成的多张变体图像,模型在眼神、发型、配饰等细节上的保留更加稳定,适用于多表情、多姿态、多风格等需要角色连贯输出的场景。


除了单人任务,Qwen-Image-Edit-2511还显著优化了多人图像融合表现。相比此前版本,它可以更自然地将两张不同人像合成为同一张合影图像,保留人物原貌的同时,自动调整姿态与构图,生成结果在整体风格与角色协调性上更为连贯。这为AI情侣照、群像图等应用提供了更高质量的基础。


▲Qwen最新案例

同时,Qwen-Image-Edit-2511首次在基础模型中内置了部分高频使用的LoRA子模型。用户无需加载外部权重,即可直接启用如光照增强、新视角生成、材质替换等功能。

例如,用户可通过LoRA控制自然光线方向变化,重现柔光照明效果,也可以在工业设计场景中完成木材纹理或布料风格的替换操作。

在结构理解方面,该版本还加入了几何构造辅助能力,支持在输入图像的基础上添加辅助线、延长线等几何元素,适用于教学、工程图生成或图像标注任务。

二、实测:人物融合稳定、风格控制可用,但精细控制仍有边界

在实际体验中,我们围绕人物一致性、LoRA光照、材质替换、文字渲染以及几何推理等能力,对Qwen-Image-Edit-2511进行了多组测试。

整体来看,模型在人物类合成与风格表达方面表现稳定,输出结果具备较高可用性,但在镜头级控制与几何逻辑执行上仍存在一定局限。

案例1:情侣写真合影(人物一致性与互动姿态测试)

4:3,韩系情侣写真风格,背景为纯色暖调低饱和暗绿色磨砂质感墙面,正面柔光打光,人物面部形成柔和阴影过渡。一对年轻东亚情侣,女性人脸参考第一张图,长头发妆容精致带项链耳环,米白色露肩上衣;男性人脸参考第二张图,发型不变,黑色短袖。人物姿态互动感强(脸贴脸),表情灵动俏皮微笑,男生搞怪委屈,女生搞怪可爱笑眯眯,整体甜酷亲昵,胶片风格带颗粒感柔光暖调,注重互动细节与服饰质感。原比例。


▲参考图

生成结果中,两位人物的面部特征与细节保持良好一致性,互动姿态自然,光影符合写真风格,整体效果稳定且可用。


▲Qwen-Image-Edit-2511生成效果图

案例2:双人俯拍自拍(高角度合成与人物一致性测试)

请将图1和图2融合成一张双人俯拍自拍照,画面构图紧凑,两位主体靠得很近,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧人物站得略靠前,参考我图1的主体形象特征造型保持不变,需要保持人脸相似度;右侧人物参考图2的主体形象特征保持造型不变,需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,符合典型的日韩视觉自拍风格。背景为纯白色,简洁干净,进一步凸显人物主体。画面风格偏向日系视觉系,整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀。

合成结果中,两位人物在高角度俯拍构图下保持了较高的人脸相似度,自拍风格成立,背景干净,整体效果表现良好。


▲Qwen-Image-Edit-2511生成效果图

案例3:软光LoRA与镜头控制(光照重构与视角操作测试)

对上传的室内家居图进行重新打光,加入柔和光线、侧面光照效果,突出空间质感,整体光线要自然不过曝。


▲参考图

在该任务中,该模型成功完成柔光重新照明,侧光层次自然,整体光线控制稳定。


▲Qwen-Image-Edit-2511生成效果图

将镜头移至桌面特写

生成结果中,镜头确实发生变化,但桌面毛笔数量与书本打开状态与原图存在偏差,结构并不够严格。


▲Qwen-Image-Edit-2511生成效果图

将镜头向左旋转60度

该指令未能被有效执行,画面视角未出现明显旋转变化,该模型在精确镜头控制方面仍有限制。


▲Qwen-Image-Edit-2511生成效果图

案例4:材质替换(工业设计场景测试)

将家具图片中桌面与椅子的木质纹理替换为另一张图中的浅色松木材质,保持结构不变,仅替换材质贴图。


▲参考图

生成结果中,桌椅整体结构保持稳定,木质纹理替换自然贴合,观感统一。


▲Qwen-Image-Edit-2511生成效果图

案例5:文字渲染与风格融合(中英文文字测试)

生成竖版3:4画面比例的“真人与其对应卡通壁画合影”场景图像:将上传的真实人物照片以原样保留服装、发型、妆容置于画面左侧/前方,调整人物的动作和拍摄视角,以确保画面和谐。在真人背后墙面绘制1:1对应卡通壁画,厚涂质感且采用动漫风格大眼、柔和轮廓五官,完整复刻发型、服装及配饰细节如耳环、项链等,色彩饱和度高并带有涂鸦式笔触效果。墙面添加彩色涂鸦爱心、笑脸图案元素,地面点缀飞溅颜料装饰细节,壁画区域融入如“2026新年快乐”的中文字元素,字体风格契合涂鸦美学。确保真人与壁画比例、角度自然衔接,光照方向统一符合场景逻辑,保持整体色彩风格一致呈现生动、连贯且视觉和谐效果。


▲参考图

生成结果中,真人与卡通壁画在风格和镜头方向上衔接自然,中文文字“2026新年快乐”渲染清晰。


▲Qwen-Image-Edit-2511生成效果图

然后,把文字部分换成如“Merry Christmas”的英文元素和“圣诞快乐”的中文字元素中英文混合的文字。

在中英文混排场景下,模型依然能够正确生成文字内容,风格与画面保持一致,文字渲染稳定,未出现明显错字。


▲Qwen-Image-Edit-2511生成效果图

案例6:几何推理(辅助构造能力测试)

过A作$DE$的垂线,延长$ED$交于G。


▲参考图(左)与Qwen-Image-Edit-2511生成效果图(右)

该任务中模型生成的几何关系存在明显错误,垂线与交点位置不符合要求,其几何推理能力尚不足以支撑严谨的数学或工程制图任务。

三、内置LoRA模型增强实用性,覆盖光照、视角与工业材质替换

在Qwen-Image-Edit-2511中,最新首次将部分社区高频使用的LoRA子模型直接内置于基础模型中,用户无需加载额外权重即可调用对应能力。这一机制显著降低了LoRA功能的使用门槛,也提升了模型在专业应用场景下的实用性。

例如,在图像风格调控任务中,用户可通过光照增强LoRA控制自然光线的角度、强度与方向,生成具有真实光影层次的画面效果。当前版本已可实现“柔光—侧光”等典型照明风格的生成。


在视角调控方面,用户还可调用新视角LoRA,直接以同一主体为基准生成不同拍摄角度下的图像,可减少重复拍摄与人工调整角度所需成本。


此外,在工业设计任务中,LoRA机制也可被用于批量图像生成、元素删改与材质替换流程中。这类能力已初步具备在产品草图阶段进行测试的潜力。


综合来看,内置LoRA的集成设计提升了Qwen-Image-Edit-2511在具体任务中的可用性,尤其在光照控制、材质替换、多视角生成等高频需求中展现出更高的商用适配性,为设计、营销、内容生成等场景提供了更低成本的图像处理方案。

结语:国产开源模型朝商用化迈进了一步

综合来看,Qwen-Image-Edit-2511在人物一致性、多人物合成与LoRA风格控制方面展现出稳定表现,实用性比前一版本有明显进步。对于需要连贯角色形象输出、控制局部风格迁移、进行材质替换等图像生成任务的用户来说,它已经具备一定的落地能力。

不过,在镜头变换、构图调整、几何推理等涉及空间理解与强逻辑执行的任务中,模型仍存在稳定性与精度上的短板,与当前顶尖的多模态生成模型相比,仍有一定差距。

作为一款面向开源社区的图像编辑模型,Qwen-Image-Edit-2511正将模型能力朝向可控性与商用型场景聚焦,这也为国内开源路线提供了一个新的样本。

来源:https://www.163.com/dy/article/KHI8D124051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

京东开源图像模型JoyAI-Image-Edit:达到世界一流水平
科技数码
京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

京东开源JoyAI图像编辑模型,破解AI修图空间逻辑难题 最近,京东在AI图像领域放了个“大招”。其探索研究院正式开源了自主研发的JoyAI-Image-Edit模型。这可不是一次简单的功能升级,而是瞄准了当前AI图像处理的一个核心痛点——三维空间理解。 简单来说,这款模型的过人之处在于,它能真正“

热心网友
04.17
京东正式开源JoyAI-Image-Edit,用于文生图等图像编辑
科技数码
京东正式开源JoyAI-Image-Edit,用于文生图等图像编辑

4月7日,据京东云消息,京东正式开源JoyAI-Image-Edit,用于文生图、图像理解以及指令引导的图像编辑。 当大多数图像编辑工具还停留在二维平面的涂抹、替换与风格迁移时,一个更前沿的赛道已经悄然开启。这次开源的工具,其意义或许正在于此:它标志着AI图像编辑正正式从“平面修图”迈入“空间重塑”

热心网友
04.17
京东开源图像模型JoyAI-Image-Edit
科技数码
京东开源图像模型JoyAI-Image-Edit

大象新闻·大象财富记者 李莉 张迪驰 近日,京东探索研究院正式开源其自主研发的JoyAI-Image-Edit图像编辑模型,这一消息在人工智能与开发者社区中引发了广泛关注。此次开源并非简单的版本更新,而是被业界视为首个将“空间智能”深度融入模型架构的开源突破。这意味着,AI图像处理能力实现了从“二维

热心网友
04.16
微软确认将在Win11预装全新命令行编辑器Edit
系统平台
微软确认将在Win11预装全新命令行编辑器Edit

科技媒体 Windows Latest 10 月 9 日发布博文,报道称微软已确认在未来的 Windows 11 版本中,将预装命令行文本编辑器“Edit”,目前在 Canary 频道 Build 27965 预览版中已默认内置。 这事儿说起来有点意思:无论是主流的Linux发行版还是苹果的macO

热心网友
04.15
Hyper3D新增功能:高效修改3D模型全流程指南
科技数码
Hyper3D新增功能:高效修改3D模型全流程指南

作者 | 董道力邮箱 | dongdaoli@pingwest com你有没有过这样的经历:好不容易用AI抽卡抽到了一个满意的3D模型,角色整体造型出色,材质也细腻,唯独肩甲有点单薄。你想着:“

热心网友
01.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

银河麒麟系统SSH公钥登录配置与安全远程连接指南
系统平台
银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c

热心网友
05.15
银河麒麟系统登录循环故障解决方法与桌面修复指南
系统平台
银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而

热心网友
05.15
GUSD稳定币详解:项目背景、核心用途与投资风险全解析
web3.0
GUSD稳定币详解:项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友
05.15
Win11如何设置默认音频输出设备与调整音量
系统平台
Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱

热心网友
05.15
宏胜集团高管变动与业务外包调整深度解析
AI
宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并

热心网友
05.15