只需寥寥数语,就能创作出价值连城的画作。这听似科幻情节,但NVIDIA Research推出的AI绘画演示最新版GauGAN2已将其变为现实。
其背后的深度学习模型,让任何从未握过画笔的人,都能将脑海中的想象转化为逼真的艺术作品,且过程比以往更加便捷。用户只需输入一个简短短语,例如“海滩上的日落”,AI便会实时生成该场景。若想调整效果,再添加一个形容词,比如“岩石海滩的日落”,或将“日落”换成“午后”、“雨天”,基于生成式对抗网络(GAN)的模型便会瞬间调整画面,仿佛拥有魔法般自然。
不仅如此,用户还可一键生成分割图——即场景中所有物体位置的轮廓总览。随后切换至绘画模式,利用“天空”、“树木”、“岩石”、“河流”等标签对应的粗略涂鸦来微调场景,智能画笔会将这些涂鸦无缝融入图像之中。直观而言,您画一个圆圈,AI便能将其转化为一朵云彩。
目前,您可前往NVIDIA AI Demos网站,直接体验全新GauGAN2的文本到图像转换功能。借助文字提示与草图绘制,用户能够比以往更快地创建并自定义场景,同时保持更为精细的控制。
“惜字如金”的AI
GauGAN2的核心亮点在于,将分割映射、图像修复与文本到图像生成三大功能集成于单一模型。这意味着,它成为了一款可通过混合文字与图画来创作逼真艺术作品的强大工具——且无需使用者具备专业绘画技能。
此次演示首次将文字、语义分割、涂鸦、风格等多种输入形式整合进一个GAN框架。它使艺术家与普通爱好者能够更快速、更轻松地将脑海中的构想转化为高质量的AI生成图像。用户无需逐一绘制每个元素:先输入一个简短短语,例如“白雪皑皑的山脉”,AI便会迅速生成关键特征与主题。随后,利用草图功能自定义初始构图——比如让某座山峰更高,在前景添加几棵树,或在天空中补充几朵云。整个过程如同与一位理解力极强的助手进行对话。
该演示不仅能生成逼真的图像,还允许艺术家描绘现实中不存在的场景。例如,若想重现《星球大战》中塔图因星的双日景观,只需输入“沙漠丘陵的太阳”作为起点,再快速勾画出第二个太阳即可。流程可反复迭代——您在文本框中输入的每一个字,都会为AI生成的图像增添更多内容。
训练这样一个模型的成本不菲。GauGAN2背后的AI模型,由全球顶尖超级计算机之一——搭载DGX SuperPOD系统的NVIDIA Selene——利用1000万张高质量景观图像训练而成。研究者训练的神经网络能够学习词汇与对应视觉效果之间的关联,例如“冬季”、“雾天”或“彩虹”。与当前专门用于文本到图像转换或分割图到图像转换的最先进模型相比,该神经网络生成的图像种类更丰富、质量更优——绝非勉强凑合,而是真正令人惊艳。
GauGAN2研究演示展现了未来为艺术家提供强大图像生成工具的潜力。事实上,NVIDIA已推出基于GauGAN技术的Canvas应用,向所有RTX GPU用户开放下载。NVIDIA Research在全球拥有200余位科学家,专注于人工智能、计算机视觉、自动驾驶、机器人及图形学等领域。可以预见,这种将语言、涂鸦与AI深度融合的方式,未来将如何深刻改变创意工作的流程。
