智象未来图像生成模型全球评测第二原生全模态架构领先_AI热点日报

智象未来图像生成模型全球评测第二原生全模态架构领先

类型：热点整理2026-06-13

在全球权威AI模型评测平台ArtificialAnalysis的文生图榜单中，智象未来的商用图像生成模型HiDream-O1-Image-1 5综合评分位列全球第二，仅次于OpenAI。该模型在超过4000个样本的匿名对比评测中获得1265ELO高分，展现出在图像质量、语义遵循及复杂画面生成上的

在权威国际AI模型评测榜单上，一款国产图像生成模型取得了仅次于OpenAI的亮眼成绩，其背后的原生全模态技术架构成为核心支撑。这一突破不仅标志着模型在图像质量方面实现了飞跃，更在复杂商业应用场景中展现出巨大的落地潜力。

智象未来图像生成模型全球评测第二，原生全模态架构表现突出

根据国际知名独立AI评测平台Artificial Analysis最新公布的文生图排行榜，智象未来推出的商用版图像生成模型HiDream-O1-Image-1.5，在采用匿名对比与用户投票的ELO动态排名机制下，综合评分高居全球第二。该评测机制有效降低了品牌认知对结果的影响，更能真实反映用户在开放生成场景中的实际偏好。

评测表现与商业应用潜力

在此次评测中，HiDream-O1-Image-1.5在超过4000个样本的对比中获得了1265 ELO评分。这一成绩不仅体现了模型在图像生成质量上的强劲竞争力，更反映出其在语义理解、复杂画面构建、文字渲染及多主体控制等综合能力上的显著提升。值得注意的是，就在半个月前，该公司的开源模型版本HiDream-O1-Image-Dev-2604已在该榜单的开源模型类别中夺得全球第一。

此次表现优异的商用版本，主要面向对视觉内容要求更高的专业商业场景。它在广告营销、品牌设计、电商视觉、游戏内容、影视分镜以及IP创作等领域展现出强大的应用能力，尤其在图像质量、文字渲染、复杂排版、多主体一致性及视觉叙事等方面表现突出。

核心技术：原生全模态架构

该模型卓越表现的核心在于其创新的原生全模态架构——Unified Transformer（UiT）。与传统文生图模型常见的“文本编码器 + VAE + 扩散模型”模块化路径不同，UiT架构从底层设计上将图像像素、文本Token、视频体素以及音频、动作、空间关系等原始信号，映射进同一个共享的Token空间，并由同一套Transformer模型完成理解、生成与推理任务。

这种设计意味着模型不再需要在不同模态之间反复转换信息，从而在文字密集排版、多主体生成、分镜叙事等复杂任务中，显著减少细节损耗与语义错位，提升了生成结果的精确度和一致性。

技术演进与未来目标

智象未来的长期目标是构建一个原生全模态的世界模型。其核心理念在于，一张图像承载着现实世界某一时刻的主体、空间、材质、光影与复杂关系，只有稳定地理解并生成这些状态，模型才能进一步处理连续时间中的运动、因果、镜头转换和完整叙事。

HiDream-O1-Image-1.5的成功验证了UiT架构强大的可扩展性。这一突破不仅为当前模型的性能提供了坚实基础，也为后续实现多图一致性、视频首帧生成乃至更复杂的长视频内容生成，提供了更稳定和高效的底层能力支持，预示着其在更广阔内容生成领域的应用前景。

来源：驱动之家

智象未来原生全模态图像生成模型 AI模型评测

延伸阅读

补充最近整理过的热点入口。