OpenClaw多模态6B小模型性能超越Nano Banana 2
当前主流的多模态生成模型虽然在标准任务上表现出色,但在面对复杂指令和多样化的下游应用场景时,其局限性便显露无遗。相比之下,近期备受关注的智能体(Agent)框架,如OpenClaw和Claude Code,在处理现实世界的复杂挑战时展现出了卓越的适应性和创造力。正是洞察到这一关键差异,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学的研究团队,成功地将OpenClaw等智能体的先进范式迁移至多模态生成领域,创新性地提出了名为GEMS(Agent-Native Multimodal Generation with Memory and Skills)的全新框架。该框架的核心优势在于,它能够深度挖掘并释放较小规模模型的潜力。实验表明,一个仅拥有60亿参数的轻量级模型,在搭载GEMS框架后,于特定任务上的表现甚至超越了部分闭源的大型模型。


GEMS:Agent-Native Multimodal Generation with Memory and Skills
那么,GEMS框架究竟是如何实现这一突破的呢?其核心理念在于借鉴并融合了OpenClaw、Claude Code等前沿智能体系统的成功经验,将这些智能体范式的精髓系统性地引入多模态生成任务,旨在从根本上解决现有模型在复杂、开放场景下能力不足的问题。

整个GEMS框架围绕三个不可或缺的核心支柱构建:
Agent Loop(智能体循环): 该模块引入了一个结构化的多智能体协作与迭代优化流程。它并非单次生成,而是一个动态的、闭环的推理与修正过程。多个智能体角色分工明确,通过持续的交互、评估与反馈,逐步引导生成结果精确地对齐复杂用户指令的深层意图。
Agent Memory(智能体记忆): GEMS的记忆系统并非简单的对话历史记录。它采用了一种高效的分层压缩策略:完整保留历史交互中的关键事实与决策结果,同时将冗长的思维链推理过程压缩为精炼的、可复用的经验要点。这种设计在显著降低计算与存储开销的同时,为处理长序列任务和实现持续优化提供了清晰、高效的上下文指引。
Agent Skill(智能体技能): 框架构建了一个模块化、可灵活扩展的专家技能库。当系统判定当前任务需要特定领域的知识或能力时,便可动态加载对应的详细技能指令与高质量示例。这相当于为模型配备了一个“即插即用”的专业工具箱,极大地拓宽了其能力范围,使其能够胜任更专业、更多元的创意生成需求。
实验分析
仅有创新的架构设计是不够的,实际性能表现才是关键。研究团队在涵盖五个主流基准任务和四个实际下游任务的广泛测试集上,对基于不同生成模型的GEMS框架进行了全面评估。


实验结果令人瞩目。在以Z-Image-Turbo为基础模型时,GEMS框架在主流多模态生成任务上的平均性能提升了14.22%。在更具挑战性的下游应用任务中,其性能优势更为明显,超越了此前最优的基线模型达8.92个百分点。这一系列数据强有力地验证了GEMS框架在提升模型能力方面的有效性和出色的泛化性能。
进一步分析
为了深入探究GEMS各个核心模块的具体贡献,研究团队进行了一系列细致的消融实验。

左图清晰地展示了一个性能渐进提升的过程:随着Agent Loop(智能体循环)、Agent Memory(智能体记忆)和Agent Skill(智能体技能)模块被依次集成,模型的综合表现也随之稳步提高。最具说服力的是,在GenEval2评测集上,装备了完整GEMS框架的60亿参数Z-Image-Turbo轻量模型,其性能表现甚至超过了知名的闭源大模型Nano Banana 2。这充分印证了智能体化策略对于激发小模型潜力的巨大价值。
右图则具体对比了记忆模块的不同实现策略。结果表明,将思维链压缩为精炼经验要点的策略,其效果显著优于简单堆叠完整历史对话或完全禁用记忆功能,证明了高效记忆管理的重要性。

此外,团队还深入分析了生成迭代轮次(平均生成/优化次数)与最终生成质量之间的平衡关系。上图表明,GEMS框架能够在更少的平均迭代轮次内达到更高的性能水平,实现了生成效率与输出效果的双重优化。

进一步的消融研究揭示,Memory(记忆)和Skill(技能)模块是提升每次迭代优化质量的关键。它们赋能模型更智能地利用过往经验和领域知识,从而减少了为获得满意结果所需的不必要迭代次数,提升了整体推理效率。
技能加持,生成更有艺术感
除了数据指标的提升,GEMS框架中Agent Skills模块带来的生成质量飞跃是直观可见的。该模块使模型能够根据任务内容自主调用特定技能,从而显著增强生成结果的艺术表现力和创意水平。

以下两个案例对比生动地展示了这一优势:
案例1:山脉日出场景
在未调用技能时,生成的山脉日出图像虽然具备真实性,但光影效果较为平淡,缺乏视觉冲击力和艺术感染力。
而当模型触发了“美学绘画”(Aesthetic Drawing)技能后,画面质感得到显著提升。光影的层次感、对比度和戏剧性大大增强,整体构图与色彩搭配更具美感。
案例2:漂浮的书籍概念
无技能辅助时,生成的图像仅为书本简单悬浮于空中,创意构思相对普通。
一旦调用“创意绘画”(Creative Drawing)技能,画面立刻变得生动且富有想象力:书页仿佛拥有生命般翩翩起舞,与璀璨的星空元素巧妙融合,营造出梦幻而充满故事性的视觉氛围。
通过以上对比,可以直观感受到GEMS的技能模块如何使多模态生成的结果从“符合要求”跃升至“富有创意”和“充满艺术灵魂”的层次。
结语
GEMS的研究工作有力地证实:通过引入智能体化的任务管理与推理策略,能够有效弥补基础生成模型在复杂能力上的固有短板。赋予模型持久的“记忆”能力和可扩展的“技能”库,就如同为一位天赋型画师配备了资深艺术指导和一整套专业工具。即便底层是一个参数规模较小的开源模型,也完全有可能在复杂的多模态生成与理解任务中,激发出媲美乃至超越大型闭源模型的潜力。这项工作为未来多模态人工智能,特别是面向复杂场景的生成式AI的发展,提供了一个极具启发性和实用价值的新方向与技术范式。
论文地址:https://arxiv.org/abs/2603.28088
项目主页:https://gems-gen.github.io/
代码仓库:https://github.com/lcqysl/GEMS
相关攻略
全球主流车企正跨界布局具身智能机器人,借助技术复用、制造协同与场景闭环等优势,破解硬件成本高、量产不足与盈利模式模糊等产业瓶颈。此举旨在推动人形机器人实现万台级规模化应用,完成向“具身智能解决方案提供商”的战略转型,重塑智能制造与人工智能的未来格局。
今天,我们将深入解析一个名为WorkBuddy的AI桌面助手项目的核心架构设计。该项目并非简单的聊天机器人,而是一个集成了智能对话、文件操作、技能执行、团队协作与自动化任务处理的全能型生产力工具。其技术栈基于Flutter与Dart,旨在实现“一次编写,多端部署”,全面覆盖桌面、移动及Web平台。
当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进
人工智能技术正以前所未有的速度渗透到各行各业,从自动驾驶到医疗诊断,从内容创作到金融风控。然而,技术越强大,其伴生的安全风险就越不容忽视。对抗攻击、模型盗窃、算法偏见……这些不再是实验室里的理论推演,而是真实世界中企业必须直面的挑战。本文将系统梳理AI安全的核心风险图谱,剖析其背后的技术原理,结合典
投资者开门见山,直接聚焦于当前资本市场高度关注的几大前沿科技领域。 提问的核心非常明确:公司的业务布局与“人工智能(AI)”、“物联网(IoT)”以及下一代“6G通信”这些热门概念是否存在关联? 面对这一直接询问,中嘉博创的董事会秘书给出了清晰且审慎的官方答复。 回复首先界定了公司的核心业务:专注于
热门专题
热门推荐
近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度
在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX
想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一
想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏
当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来





