游乐游手机版
首页/业界动态/文章详情

智象未来HiDream-O1-1.5首进全球前三,中文生图模型超越谷歌英伟达

时间:2026-06-12 13:44
智象未来HiDream-O1-Image-1 5商用模型以1265ELO评分登顶文生图榜单全球第二,超越谷歌、英伟达等巨头。其核心采用原生全模态UiT架构,将图像、文本等多模态信号映射至统一Token空间,显著提升中文渲染、多主体生成与复杂排版能力。

生成式AI的竞争浪潮中,图像生成这个赛道上,又杀出一位实力不凡的挑战者。智象未来(HiDream.ai)最近凭借其商用图像生成模型 HiDream-O1-Image-1.5,在国外文生图榜单上拿下了1265 ELO评分,位列中国第一、全球第二,仅次于OpenAI。这个成绩,直接超越了Google的Nano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIA的Cosmos3-Super-Text2Image,以及字节跳动的Seedream 4.0等一众巨头的模型。数据展现的信息很清晰——中国团队在视觉生成领域的底层架构创新,正在被全球市场看到。

从开源登顶到商用霸榜,仅隔半月

就在半个月前,智象未来开源的 HiDream-O1-Image-Dev-2604 刚登上同一榜单的开源模型全球第一。如今,商用版1.5又快速跻身全榜前三,形成了“开源+商用”双线领跑的局面。这种节奏,放眼整个行业都算相当紧凑。

“原生全模态”架构:告别模块化拼凑

HiDream-O1-Image-1.5的技术核心,是一套名为Unified Transformer(UiT)的原生全模态架构。与传统文生图模型常见的“文本编码器+VAE+扩散模型”那种模块化拼凑路线不同,UiT从底层就把图像像素、文本Token、视频体素,以及音频、动作、空间关系等原始信号映射到同一个共享Token空间,由同一套Transformer完成理解、生成和推理。这意味着模型不再需要在不同模态之间反复“倒手”信息,所以在文字密集排版、多主体生成、分镜叙事这类复杂任务中,细节损耗和语义错位的问题就大大减少了。

智象未来也是业内首家把这一架构从“技术验证”真正推进到“生产验证”的公司。开源版证明了路线的可行性,商用版1.5则在广告营销、电商视觉、影视分镜、IP创作等真实商业场景中,展现出了很强的交付能力。

不只是“画得好看”:会写字、懂排版、能分镜

评测数据显示,HiDream-O1-Image-1.5并不是只在单一维度上表现突出,而是在多个应用场景里同时具备竞争力:

人像与动物摄影:在皮肤质感、皮毛细节、复杂光影和水下折射等场景中,保持着摄影级别的真实度,肢体比例和空间透视也很稳定。

电商海报:能够把商品、场景、装饰元素与中英文营销文案自然融合,即使面对多层级卖点和复杂排版,文字的可读性和画面的完整度依然出色。

IP形象设计:围绕同一角色生成多角度视图和多种情绪表情,五官、发型、服饰的一致性很高,能显著提升角色三视图的开发效率。

多宫格/分镜设计:可以生成逻辑连贯的连续画面,自动维护角色、场景与视觉风格的统一,适用于影视分镜、漫画创作和广告脚本的快速视觉化。

多层次文字渲染:在中英文混排、数字公式、图表信息和多级标题等复杂需求中,仍能保持较好的可读性与版面稳定性,拓展了教育培训、办公协作等场景的实用价值。

对比谷歌Nano Banana 2:复杂中文与光影细节胜出

日前有博主发布了一组图片,把HiDream-O1-Image-1.5与Google的Nano Banana 2(Gemini 3.1 Flash Image Preview)做了直接对比。其中一个Prompt要求生成“中国白酒奢华电商海报”,需要在羊脂玉瓷瓶表面浮雕一首八句中文古诗,文字内部镶嵌金箔,并配合黑板岩、浅水池、焦散光影和盆景松树等复杂元素。结果很直观——HiDream-O1-Image-1.5在中文字准确渲染、金箔材质的金属光泽,以及水面焦散光效上都明显胜出。另一组“好奇小猫探索童话花园”的提示中,花朵的层次感、光影的柔和过渡也获得了用户更高偏好。

从图像生成到“世界模型”的入口

智象未来的长期方向,是构建原生全模态世界模型。这个思路的核心逻辑在于:一张图像承载着现实世界某一时刻的主体、空间、材质、光影和关系——只有稳定理解并生成这些状态,模型才能进一步处理连续时间中的运动、因果、镜头和叙事。HiDream-O1-Image-1.5的表现证明了UiT架构的可扩展性,也为后续的多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。

目前,HiDream-O1-Image-1.5已在官方平台vivago.ai和hiharness.ai开放体验。开源版本也已在GitHub和Hugging Face上线,供开发者下载使用。

从过去依赖“更大参数”和“更美画面”的旧竞争,到如今由架构能力、生产效率和工作流价值共同决定的新阶段,HiDream-O1-Image-1.5的登顶,不仅是中国大模型企业在全球顶级赛道上的一次亮见,也印证了原生全模态路线作为下一代多模态模型底座的可行性。对于内容创作、商业营销、影视制作等产业而言,一个能够“理解图文、掌控排版、叙事分镜”的AI生成工具,或许正在重新定义视觉生产力的边界。

来源:https://www.ithome.com/0/963/143.htm
上一篇腾讯音乐放弃独家版权 版权公司需转型 下一篇星思半导体6G卫星通信研发实力赋能星座组网落地
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿