游乐游手机版
首页/AI热点日报/热点详情

商汤开源图文交错生成模型,多页连续创作保持角色一致

类型:热点整理2026-07-05
商汤科技近日开源了SenseNovaU1-8B-MoT-Interleaved图文交错增强版模型。该模型专为绘本、故事书、多页PPT等连续图文内容创作场景设计,重点解决了传统多模态模型在多轮生成后出现的角色形象飘移、画风断裂及图文脱节等痛点。其核心升级包括大幅提升叙事与角色连贯性、增强图文语义对应

在图文内容创作中,多轮迭代后常出现角色形象不一致、画风突变等连贯性问题,成为困扰创作者的难题。近期,一款全新的开源模型正式发布,专门为绘本、故事书乃至多页PPT等连续内容创作提供稳定、连贯的生成支持。

商汤开源图文交错生成增强模型,支持多页连续创作保持角色一致

商汤科技正式开源了SenseNova U1系列的新成员——U1-8B-MoT-Interleaved图文交错增强版模型。该模型针对图文交错创作与生成场景进行了专项强化训练,核心目标是解决传统多模态模型在长周期内容创作中常见的连贯性问题。

核心升级:提升叙事连贯与角色一致性

官方介绍指出,该模型的核心升级主要体现在四个方面。首先,叙事一致性与角色连贯性得到了显著增强。模型在长周期创作中能更精准地遵循故事脉络,确保人物形象从第一页到最后一页保持高度一致,画风也更为统一。

增强图文对应,优化视觉质量

其次,模型经过专项训练,大幅改善了图像内容与文字描述之间的语义对齐能力,生成的画面能更准确地呈现文本描述的复杂场景、动态动作与空间关系,有效告别“图文不符”。同时,针对人物结构、文字渲染、页面排版等高难度区域进行了定向优化,显著降低了生成结果中的视觉瑕疵。

新增多页PPT自动生成能力

尤为值得关注的是,新版本模型首次支持了多页PPT自动生成能力。这意味着模型能够智能地从输入内容中提取要点,并自行完成排版设计与文字渲染,为内容创作者提供了全新的自动化工具选择。该模型已在Hugging Face平台开源,可供开发者与研究社区下载使用。

总体来看,此次开源模型在提升多轮生成内容一致性方面迈出了重要一步,其针对性的优化有望推动图文交错内容创作工具向更实用、更可靠的方向发展。

来源:IT之家

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。