最强AI图像生成工具对比实测:比PS更强大的新选择
最近两周,“手办化”突然就火了。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
事情是这样的,大约在两周之前,大模型竞技场LMArena上架了一个只闻其名,不见其身的神秘模型——“nano banana”,按照官方说法,这是一个顶尖的图像生成与编辑模型,能实现前所未有的创作控制力。
结果呢?整个互联网的AIGC玩家,都在用它变身“手办大师”。
不开玩笑,小雷是真被这玩意给刷屏了,这两天一打开群聊,就能看到无法无天的群友们在拿这玩意疯狂整活,有把自己头像做成限量版GK模型的,有把自家猫狗“手办化”的,甚至还有给刚发布的《黑神话:钟馗》弄雕像和游戏盒的,推特上的国外网友玩得更是乐此不疲,看得我都有点心痒痒的。
幸好,这次我们不用眼巴巴地羡慕了。

(图源:LMArena)
随着Google的正式发布,如今Gemini 2.5 Flash Image已经通过Gemini API和Google AI Studio向公众开放预览,用户只需访问官网,就能直接体验到下一代图像模型的威力。
最重要的是,这玩意在AI Studio里进行测试是完全免费的,对于我们这种热爱尝鲜的玩家来说,简直是把探索未来的门槛给直接铲平了。
话不说多,我们这边直接开整!
Gemini 2.5 Flash Image让人人成手办大师
想体验这个功能的话,其实还蛮简单的就是了。
打开Google AI Studio网页版,在Generate media选项卡下就能找到Gemini 2.5 Flash Image。界面非常直观,一个提示词输入框,一个上传图片的区域,这就是通往新世界的大门。
要做的事情很简单,上传一张图片,然后用自然语言告诉它我们想要生成的内容就像。

(图源:Gemini)
话不多说,先来看图。
首先,我们准备一张自己想要进行“手办化”的图片,可以是动漫,也可以是真人,甚至不必是全身照,比如这张来自漫画《捉摸不透的刑警织子桑》里的有阿谷織子的单人图就很不错。
接下来,输入提示词:
Please turn this screenshot of the character into a kotobukiya figure. Behind it, place a toy box printed with the character's image. Next to it, add a computer with its screen displaying the design, complete with the the character. In front of the box, add a round plastic base for the figure and have it stand on it. The PVC material of the base should have a crystal-clear, translucent texture, and set the entire scene indoors.
最终成品如下:

(图源:雷科技自制)
不得不说,Gemini对“手办质感”的理解已经超出了我的预期。
这张图的生成效果达到了以假乱真的水准,无论是手办本身的材质(蕾丝、皮革、肌肤)、包装盒上的文字和品牌Logo,还是背景电脑屏幕上复杂的建模界面都很不错,只有高度模糊的背景能看出些端倪。
再来些热门的,比如说《黑神话:钟馗》:

(图源:雷科技自制)
接着试一下大家都关心的名人,比如说马斯克:

(图源:雷科技自制)
从结果来看,转换效果可以说是几无失手,非常成熟。
如果你想玩点更高级的,我们把这张生成的图片,扔进同样是豆包视频生成中,用提示词“画面外的人从两边伸出亚洲人的双手,拿起手办把玩并展示桌上手办的视频”,生成一段把玩手办的视频。

(图源:雷科技自制)
如果用提示词“360度缓慢旋转这个手办,转台拍摄”,就能生成一段平滑的环绕展示视频。

(图源:雷科技自制)
最后还可以用Meshy或者腾讯混元3D,将手办3D建模化,我们就能得到一个可以自由旋转、缩放的3D模型。

(图源:雷科技自制)
虽说后两步借助了其他工具,但由Gemini 2.5 Flash Image产出的高质量初始素材,是整个工作流成功的基石。这种打破次元壁的做法,让每个人都能低成本地实现从一个想法到3D产品的完整流程,在过去是很难想象的。
修图能力更强了,其实是终极版PS?
不过,人人都在玩手办化,是不是有点大材小用了?
我们不妨转换一下思路,把它当成终极版的PS来用?
举个例子吧,比如说那些珍贵的、但因年代久远而模糊破损的老照片,它能不能修复呢?
我上传了一张黑白老照片,照片上有划痕和噪点,清晰度也很低。

(图源:X)
接下来,输入提示词:
Restore this old photo, remove scratches and noise, increase the resolution, and colorize it realistically.

(图源:Gemini)
答案是,“完全可以,而且效果惊人”。
可以看到,Gemini 2.5 Flash Image不仅清除了物理损伤,还通过算法补全了缺失的细节,面部的纹理和眼神光都得到了合乎逻辑的重现。上色的效果也偏近自然,没有出现早期AI上色那种“塑料感”,充满了温暖的时代气息。
再试试设计行业里源远流长的梗,“把白天改成黑夜”这种要求,它能不能实现呢?

(图源:雷科技)
提示词:
Change the scene to night time, turn on the streetlights and the lights inside the buildings, make it look like it's raining slightly.

(图源:Gemini)
只能说,Gemini 2.5 Flash Image在语义理解和光影重构这块,已经达到了很出彩的水平。它不仅仅是简单地调暗画面,而是真正理解了“夜晚”、“灯光”、“下雨”这些概念,并合乎物理逻辑地对整个画面进行了重新渲染。
最后,我也试了一下它的风格切换能力。这次就拿《Panty&Stocking》里的画面做例子:
(图源:X)
提示词:
Convert this scene into a photorealistic movie still from a 1990s live-action film, directed by Wong Kar-wai.
(图源:Gemini)
很有意思,它不仅做到了“三次元化”,还微妙地捕捉到了王家卫电影那种独特的色彩、光影和氛围感。
这种跨越媒介和导演风格的无缝切换,为艺术创作提供了更多可能。
不算完美,却堪称图片AIGC新标杆
不可否认,Gemini 2.5 Flash Image的发布,标志着AI在图像生成领域实现了重大突破。
就像我展示的那样,曾经需要专业人士花费数小时在PS里用蒙版、图层、笔刷精雕细琢的工作,如今只需一句自然语言就能瞬间完成,甚至修图效果比我这种半吊子还要好上不少,属实有点惭愧。
目前该模型在预览阶段,并非完美无瑕。
在处理极其复杂的、包含大量人物的场景时,Gemini偶尔还是会出现轻微的逻辑错误或细节失真。对于一些过于抽象或违反物理常识的指令,它的理解能力也还有提升空间。
不管怎么说,Gemini 2.5 Flash Image算是为AI图片生成应用树立了一个新的标杆。
可以预见的是,随着技术的不断成熟和成本的降低,未来手机、电脑的相册和编辑器都可能会原生集成这项功能,就像AI消除、AI扩图那样走进寻常百姓家。无论是专业设计师还是普通用户,每个人都有机会轻松上手,将自己脑海中的创意和对美的理解,更直观、更高效地展现出来。
修图有手就行?或许真的不是梦。
相关攻略
硅谷新锐Creao AI获千万美元融资,超级智能体赛道热度攀升 近日,硅谷华人创业团队Creao AI宣布完成新一轮千万美元级别的融资。领投方为Prosperity7 Ventures与经纬创投,云启资本、高瓴创投、红杉中国等现有股东也持续加码。这家成立于2024年的公司,团队规模尚不足20人,却在
浏览器AI进入原生时代:谷歌与微软打响端侧化第一枪 近期,浏览器行业迎来重大变革。谷歌与微软相继宣布,为旗下Chrome与Edge浏览器开放原生内置的生成式AI API接口。这一举措的核心意义在于,开发者现在能够直接调用浏览器本地集成的AI模型,实现语言识别、文本翻译、内容摘要等智能功能。最关键的是
AI数据中心的扩张正在触发一场跨越电力、水资源与关键金属的全链条资源冲击,而这场危机远未被市场充分定价。 根据美银最新发布的研究报告,全球数据中心的数量已经超过11,200座。一个关键趋势是,AI专用算力在过去短短18个月内扩张了三倍。展望2030年,全球数据中心的总容量有望翻倍,达到200GW,这
千问AI眼镜S1在4月15日开启现货发售,开售仅10小时即在天猫、京东、抖音等主流电商平台拿下多项销量榜单第一。 这火爆的场面,是不是有点眼熟?没错,就在一个多月前,千问AI眼镜G1在3月8日开售首日,也上演了全渠道现货售罄的戏码,上市首周就吃下了线上AI眼镜市场超过70%的份额。如果把时间线再往前
AI投入猛增,消息称字节跳动2025年净利润同比下滑超 70% 4月20日,《科创板日报》的一则消息在业内传开。知情人士透露,字节跳动2025年的净利润同比下滑幅度超过了70%,净利润率也出现了大幅收索。这背后一个关键的原因,其实就藏在去年三、四季度的财报里——公司在那段时间,大幅增加了对AI业务的
热门专题
热门推荐
在数字货币快速发展的今天,如何选择一个靠谱的交易平台,往往是新手投资者迈出的第一步。面对市场上琳琅满目的交易所APP,从安全性、易用性到功能特色,究竟该怎么选?下面,我们就来梳理一下2026年主流的数字资产交易平台,帮你从多个维度看清它们的核心特点,无论是想尝试简单的现货买卖,还是计划涉足合约交易,
从音乐人到AI药物研发创业者:Aloe Blacc的跨界创业之路 近日,美国知名创作歌手Aloe Blacc做客TechCrunch旗下知名播客Equity,分享了他从音乐界成功跨界至AI驱动抗癌药物研发领域的独特经历。尤为引人关注的是,他创立的AI医药公司至今未进行任何外部融资。在访谈中,他深入阐
AI文生视频:从“猎奇玩具”到“生产力工具”的疾速进化 还记得几年前全网疯传的“威尔·史密斯吃意大利面”吗?那段画面扭曲、动作诡异的视频,一度成为AI文生视频技术稚嫩期的经典注脚——与其说是创作,不如说是一场数字世界的“恐怖谷”体验,离实际应用相距甚远。 然而,技术的演进速度总是超乎想象。过去一年,
百度开源文生图模型ERNIE-Image:消费级显卡畅享顶级文字生成效果 2024年4月15日,百度文心大模型团队正式宣布开源其参数规模达80亿的文生图模型ERNIE-Image。该模型最引人注目的优势在于,仅需24GB显存的消费级GPU即可实现高效部署与运行。同时,团队还发布了推理加速版本ERNI
欧亿交易所现货交易时间:如何理解其全球化设计逻辑? 在数字资产交易的世界里,交易时间的设定绝非小事。它直接关系到投资者的操作空间能否打开,以及整个市场的流动性是否充沛。作为行业内的头部平台,欧亿交易所(OYEX)在现货交易时间上的安排,可以说是一份深思熟虑的“全球时区解决方案”。它的设计,精准地瞄准





