在图文内容创作中,多轮迭代后常出现角色形象不一致、画风突变等连贯性问题,成为困扰创作者的难题。近期,一款全新的开源模型正式发布,专门为绘本、故事书乃至多页PPT等连续内容创作提供稳定、连贯的生成支持。

商汤科技正式开源了SenseNova U1系列的新成员——U1-8B-MoT-Interleaved图文交错增强版模型。该模型针对图文交错创作与生成场景进行了专项强化训练,核心目标是解决传统多模态模型在长周期内容创作中常见的连贯性问题。
核心升级:提升叙事连贯与角色一致性
官方介绍指出,该模型的核心升级主要体现在四个方面。首先,叙事一致性与角色连贯性得到了显著增强。模型在长周期创作中能更精准地遵循故事脉络,确保人物形象从第一页到最后一页保持高度一致,画风也更为统一。
增强图文对应,优化视觉质量
其次,模型经过专项训练,大幅改善了图像内容与文字描述之间的语义对齐能力,生成的画面能更准确地呈现文本描述的复杂场景、动态动作与空间关系,有效告别“图文不符”。同时,针对人物结构、文字渲染、页面排版等高难度区域进行了定向优化,显著降低了生成结果中的视觉瑕疵。
新增多页PPT自动生成能力
尤为值得关注的是,新版本模型首次支持了多页PPT自动生成能力。这意味着模型能够智能地从输入内容中提取要点,并自行完成排版设计与文字渲染,为内容创作者提供了全新的自动化工具选择。该模型已在Hugging Face平台开源,可供开发者与研究社区下载使用。
总体来看,此次开源模型在提升多轮生成内容一致性方面迈出了重要一步,其针对性的优化有望推动图文交错内容创作工具向更实用、更可靠的方向发展。
