在权威国际AI模型评测榜单上,一款国产图像生成模型取得了仅次于OpenAI的亮眼成绩,其背后的原生全模态技术架构成为核心支撑。这一突破不仅标志着模型在图像质量方面实现了飞跃,更在复杂商业应用场景中展现出巨大的落地潜力。

根据国际知名独立AI评测平台Artificial Analysis最新公布的文生图排行榜,智象未来推出的商用版图像生成模型HiDream-O1-Image-1.5,在采用匿名对比与用户投票的ELO动态排名机制下,综合评分高居全球第二。该评测机制有效降低了品牌认知对结果的影响,更能真实反映用户在开放生成场景中的实际偏好。
评测表现与商业应用潜力
在此次评测中,HiDream-O1-Image-1.5在超过4000个样本的对比中获得了1265 ELO评分。这一成绩不仅体现了模型在图像生成质量上的强劲竞争力,更反映出其在语义理解、复杂画面构建、文字渲染及多主体控制等综合能力上的显著提升。值得注意的是,就在半个月前,该公司的开源模型版本HiDream-O1-Image-Dev-2604已在该榜单的开源模型类别中夺得全球第一。
此次表现优异的商用版本,主要面向对视觉内容要求更高的专业商业场景。它在广告营销、品牌设计、电商视觉、游戏内容、影视分镜以及IP创作等领域展现出强大的应用能力,尤其在图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事等方面表现突出。
核心技术:原生全模态架构
该模型卓越表现的核心在于其创新的原生全模态架构——Unified Transformer(UiT)。与传统文生图模型常见的“文本编码器 + VAE + 扩散模型”模块化路径不同,UiT架构从底层设计上将图像像素、文本Token、视频体素以及音频、动作、空间关系等原始信号,映射进同一个共享的Token空间,并由同一套Transformer模型完成理解、生成与推理任务。
这种设计意味着模型不再需要在不同模态之间反复转换信息,从而在文字密集排版、多主体生成、分镜叙事等复杂任务中,显著减少细节损耗与语义错位,提升了生成结果的精确度和一致性。
技术演进与未来目标
智象未来的长期目标是构建一个原生全模态的世界模型。其核心理念在于,一张图像承载着现实世界某一时刻的主体、空间、材质、光影与复杂关系,只有稳定地理解并生成这些状态,模型才能进一步处理连续时间中的运动、因果、镜头转换和完整叙事。
HiDream-O1-Image-1.5的成功验证了UiT架构强大的可扩展性。这一突破不仅为当前模型的性能提供了坚实基础,也为后续实现多图一致性、视频首帧生成乃至更复杂的长视频内容生成,提供了更稳定和高效的底层能力支持,预示着其在更广阔内容生成领域的应用前景。
