智象未来HiDream-O1-1.5首进全球前三，中文生图模型超越谷歌英伟达

时间：2026-06-12 13:44

智象未来HiDream-O1-Image-1 5商用模型以1265ELO评分登顶文生图榜单全球第二，超越谷歌、英伟达等巨头。其核心采用原生全模态UiT架构，将图像、文本等多模态信号映射至统一Token空间，显著提升中文渲染、多主体生成与复杂排版能力。

生成式AI的竞争浪潮中，图像生成这个赛道上，又杀出一位实力不凡的挑战者。智象未来（HiDream.ai）最近凭借其商用图像生成模型 HiDream-O1-Image-1.5，在国外文生图榜单上拿下了1265 ELO评分，位列中国第一、全球第二，仅次于OpenAI。这个成绩，直接超越了Google的Nano Banana 2（Gemini 3.1 Flash Image Preview）、NVIDIA的Cosmos3-Super-Text2Image，以及字节跳动的Seedream 4.0等一众巨头的模型。数据展现的信息很清晰——中国团队在视觉生成领域的底层架构创新，正在被全球市场看到。

从开源登顶到商用霸榜，仅隔半月

就在半个月前，智象未来开源的 HiDream-O1-Image-Dev-2604 刚登上同一榜单的开源模型全球第一。如今，商用版1.5又快速跻身全榜前三，形成了“开源+商用”双线领跑的局面。这种节奏，放眼整个行业都算相当紧凑。

“原生全模态”架构：告别模块化拼凑

HiDream-O1-Image-1.5的技术核心，是一套名为Unified Transformer（UiT）的原生全模态架构。与传统文生图模型常见的“文本编码器+VAE+扩散模型”那种模块化拼凑路线不同，UiT从底层就把图像像素、文本Token、视频体素，以及音频、动作、空间关系等原始信号映射到同一个共享Token空间，由同一套Transformer完成理解、生成和推理。这意味着模型不再需要在不同模态之间反复“倒手”信息，所以在文字密集排版、多主体生成、分镜叙事这类复杂任务中，细节损耗和语义错位的问题就大大减少了。

智象未来也是业内首家把这一架构从“技术验证”真正推进到“生产验证”的公司。开源版证明了路线的可行性，商用版1.5则在广告营销、电商视觉、影视分镜、IP创作等真实商业场景中，展现出了很强的交付能力。

不只是“画得好看”：会写字、懂排版、能分镜

评测数据显示，HiDream-O1-Image-1.5并不是只在单一维度上表现突出，而是在多个应用场景里同时具备竞争力：

人像与动物摄影：在皮肤质感、皮毛细节、复杂光影和水下折射等场景中，保持着摄影级别的真实度，肢体比例和空间透视也很稳定。

电商海报：能够把商品、场景、装饰元素与中英文营销文案自然融合，即使面对多层级卖点和复杂排版，文字的可读性和画面的完整度依然出色。

IP形象设计：围绕同一角色生成多角度视图和多种情绪表情，五官、发型、服饰的一致性很高，能显著提升角色三视图的开发效率。

多宫格/分镜设计：可以生成逻辑连贯的连续画面，自动维护角色、场景与视觉风格的统一，适用于影视分镜、漫画创作和广告脚本的快速视觉化。

多层次文字渲染：在中英文混排、数字公式、图表信息和多级标题等复杂需求中，仍能保持较好的可读性与版面稳定性，拓展了教育培训、办公协作等场景的实用价值。

对比谷歌Nano Banana 2：复杂中文与光影细节胜出

日前有博主发布了一组图片，把HiDream-O1-Image-1.5与Google的Nano Banana 2（Gemini 3.1 Flash Image Preview）做了直接对比。其中一个Prompt要求生成“中国白酒奢华电商海报”，需要在羊脂玉瓷瓶表面浮雕一首八句中文古诗，文字内部镶嵌金箔，并配合黑板岩、浅水池、焦散光影和盆景松树等复杂元素。结果很直观——HiDream-O1-Image-1.5在中文字准确渲染、金箔材质的金属光泽，以及水面焦散光效上都明显胜出。另一组“好奇小猫探索童话花园”的提示中，花朵的层次感、光影的柔和过渡也获得了用户更高偏好。

从图像生成到“世界模型”的入口

智象未来的长期方向，是构建原生全模态世界模型。这个思路的核心逻辑在于：一张图像承载着现实世界某一时刻的主体、空间、材质、光影和关系——只有稳定理解并生成这些状态，模型才能进一步处理连续时间中的运动、因果、镜头和叙事。HiDream-O1-Image-1.5的表现证明了UiT架构的可扩展性，也为后续的多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。

目前，HiDream-O1-Image-1.5已在官方平台vivago.ai和hiharness.ai开放体验。开源版本也已在GitHub和Hugging Face上线，供开发者下载使用。

从过去依赖“更大参数”和“更美画面”的旧竞争，到如今由架构能力、生产效率和工作流价值共同决定的新阶段，HiDream-O1-Image-1.5的登顶，不仅是中国大模型企业在全球顶级赛道上的一次亮见，也印证了原生全模态路线作为下一代多模态模型底座的可行性。对于内容创作、商业营销、影视制作等产业而言，一个能够“理解图文、掌控排版、叙事分镜”的AI生成工具，或许正在重新定义视觉生产力的边界。

来源：https://www.ithome.com/0/963/143.htm

HiDream

上一篇腾讯音乐放弃独家版权版权公司需转型 下一篇星思半导体6G卫星通信研发实力赋能星座组网落地

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿