生成式AI的竞争浪潮中,图像生成这个赛道上,又杀出一位实力不凡的挑战者。智象未来(HiDream.ai)最近凭借其商用图像生成模型 HiDream-O1-Image-1.5,在国外文生图榜单上拿下了1265 ELO评分,位列中国第一、全球第二,仅次于OpenAI。这个成绩,直接超越了Google的Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA的Cosmos3-Super-Text2Image,以及字节跳动的Seedream 4.0等一众巨头的模型。数据展现的信息很清晰——中国团队在视觉生成领域的底层架构创新,正在被全球市场看到。
从开源登顶到商用霸榜,仅隔半月
就在半个月前,智象未来开源的 HiDream-O1-Image-Dev-2604 刚登上同一榜单的开源模型全球第一。如今,商用版1.5又快速跻身全榜前三,形成了“开源+商用”双线领跑的局面。这种节奏,放眼整个行业都算相当紧凑。
“原生全模态”架构:告别模块化拼凑
HiDream-O1-Image-1.5的技术核心,是一套名为Unified Transformer(UiT)的原生全模态架构。与传统文生图模型常见的“文本编码器+VAE+扩散模型”那种模块化拼凑路线不同,UiT从底层就把图像像素、文本Token、视频体素,以及音频、动作、空间关系等原始信号映射到同一个共享Token空间,由同一套Transformer完成理解、生成和推理。这意味着模型不再需要在不同模态之间反复“倒手”信息,所以在文字密集排版、多主体生成、分镜叙事这类复杂任务中,细节损耗和语义错位的问题就大大减少了。
智象未来也是业内首家把这一架构从“技术验证”真正推进到“生产验证”的公司。开源版证明了路线的可行性,商用版1.5则在广告营销、电商视觉、影视分镜、IP创作等真实商业场景中,展现出了很强的交付能力。
不只是“画得好看”:会写字、懂排版、能分镜
评测数据显示,HiDream-O1-Image-1.5并不是只在单一维度上表现突出,而是在多个应用场景里同时具备竞争力:
人像与动物摄影:在皮肤质感、皮毛细节、复杂光影和水下折射等场景中,保持着摄影级别的真实度,肢体比例和空间透视也很稳定。
电商海报:能够把商品、场景、装饰元素与中英文营销文案自然融合,即使面对多层级卖点和复杂排版,文字的可读性和画面的完整度依然出色。
IP形象设计:围绕同一角色生成多角度视图和多种情绪表情,五官、发型、服饰的一致性很高,能显著提升角色三视图的开发效率。
多宫格/分镜设计:可以生成逻辑连贯的连续画面,自动维护角色、场景与视觉风格的统一,适用于影视分镜、漫画创作和广告脚本的快速视觉化。
多层次文字渲染:在中英文混排、数字公式、图表信息和多级标题等复杂需求中,仍能保持较好的可读性与版面稳定性,拓展了教育培训、办公协作等场景的实用价值。
对比谷歌Nano Banana 2:复杂中文与光影细节胜出
日前有博主发布了一组图片,把HiDream-O1-Image-1.5与Google的Nano Banana 2(Gemini 3.1 Flash Image Preview)做了直接对比。其中一个Prompt要求生成“中国白酒奢华电商海报”,需要在羊脂玉瓷瓶表面浮雕一首八句中文古诗,文字内部镶嵌金箔,并配合黑板岩、浅水池、焦散光影和盆景松树等复杂元素。结果很直观——HiDream-O1-Image-1.5在中文字准确渲染、金箔材质的金属光泽,以及水面焦散光效上都明显胜出。另一组“好奇小猫探索童话花园”的提示中,花朵的层次感、光影的柔和过渡也获得了用户更高偏好。
从图像生成到“世界模型”的入口
智象未来的长期方向,是构建原生全模态世界模型。这个思路的核心逻辑在于:一张图像承载着现实世界某一时刻的主体、空间、材质、光影和关系——只有稳定理解并生成这些状态,模型才能进一步处理连续时间中的运动、因果、镜头和叙事。HiDream-O1-Image-1.5的表现证明了UiT架构的可扩展性,也为后续的多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。
目前,HiDream-O1-Image-1.5已在官方平台vivago.ai和hiharness.ai开放体验。开源版本也已在GitHub和Hugging Face上线,供开发者下载使用。
从过去依赖“更大参数”和“更美画面”的旧竞争,到如今由架构能力、生产效率和工作流价值共同决定的新阶段,HiDream-O1-Image-1.5的登顶,不仅是中国大模型企业在全球顶级赛道上的一次亮见,也印证了原生全模态路线作为下一代多模态模型底座的可行性。对于内容创作、商业营销、影视制作等产业而言,一个能够“理解图文、掌控排版、叙事分镜”的AI生成工具,或许正在重新定义视觉生产力的边界。
