南京理工大学CreativeBench揭秘AI创意生成原理与评估方法

首页

热心网友

转载

2026-05-14

这项由南京理工大学、清华大学、北京大学等顶尖高校联合主导的研究，于2026年正式发表。研究团队构建了一个名为CreativeBench的全新AI创造力评测基准，旨在科学量化人工智能系统的创意水平。该研究为“如何评估AI创造力”这一前沿课题提供了标准化解决方案。完整论文可通过arXiv预印本平台，使用编号arXiv:2603.11863进行查阅。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

南京理工大学揭开AI创意之谜：CreativeBench让机器也能

谈及人工智能，人们往往惊叹于其强大的数据处理、精准记忆与高效执行能力。然而，“创造力”——这种灵光乍现、突破常规的思维能力，似乎一直是人类独有的疆域。传统AI如同严格遵循菜谱的厨师，虽能完成任务，却难以带来意料之外的惊喜。但现在，这一认知正在被改写。

随着AI技术迈向深水区，一个根本性问题愈发凸显：机器能否真正具备创造性思维？这不仅是学术探索，更源于一个紧迫的现实挑战：用于训练AI的高质量数据资源日趋紧张。在此背景下，能够持续生成新颖、有效想法的AI系统，其价值堪比驱动未来数字世界的“创意引擎”。

为此，研究团队精心打造了CreativeBench评测体系。你可以将其视作一个特殊的“竞技场”，这里不比拼记忆与速度，只较量想法的巧妙与独到。该基准的理论基础源于认知科学家玛格丽特·博登的经典框架，将创造力主要划分为两大类型：组合式创造力与探索式创造力。

组合式创造力，如同一位烹饪大师将中式爆炒技法与意大利面食材融合，创造出全新菜式。在编程语境下，这意味着整合来自不同技术领域的代码逻辑或思路，以解决需要复合技能的复杂问题。研究团队采用了一种巧妙的“逆向工程”法来设计此类题目：先让AI生成融合多技术的正确程序，再反向推导出题目描述，从而确保每道题都能精准考验跨领域思维与整合能力。

探索式创造力则截然不同，它更像是在严格限制下寻找出路的智者。想象一个所有常规出口都被封锁的迷宫，你必须发现隐藏的路径。在测试中，这表现为对AI施加各类约束，禁止使用最常见的解题模式，迫使系统去探索那些非常规甚至反直觉的解决方案。研究团队通过“自我博弈”的方式生成题目——一个“出题AI”不断设置障碍，一个“解题AI”竭力寻找突破，在这种动态对抗中，催生出极具挑战性的创意考题。

如何公正评判机器的“创意”高低？研究团队建立了一套严谨的量化标准：创造力被定义为“解决方案质量”与“方案新颖性”的乘积。这好比评价一部作品，既要内容扎实（质量合格），又需别具一格（新颖性高）。质量通过程序能否通过所有测试用例来判定；新颖性则通过计算生成方案与历史常见方案之间的差异度来量化。这套方法极大降低了主观偏差，使评估结果客观可靠。

最终构建的CreativeBench数据集包含了1859道编程题目，覆盖从基础数据结构到机器学习等14个技术领域，形成了一个全面、多维的AI创意能力测试平台。每一道题都经过严格筛选与验证，确保其真正需要创造性思维，而非简单的知识检索或模式复制。

一、当前主流AI模型的创意表现揭示关键瓶颈

利用CreativeBench对当前顶尖大语言模型进行测评后，结果发人深省。即便是表现最优异的Gemini-3-Pro模型，在创意测试中的整体通过率也未突破60%。这清晰地表明，AI在创造性问题解决方面仍处于初级阶段，距离人类灵活、发散的创意思维尚有显著差距。

一个被称为“规模化收敛”的现象尤为值得关注。随着模型参数规模不断扩大，AI的答案准确性虽在提升，但其输出却趋向“保守化”。这类似于一位经验丰富的专家，虽能规避错误，但也可能逐渐固守成规，缺乏冒险精神。大型模型更倾向于给出安全、标准的答案，而一些参数规模较小的模型，尽管整体错误率较高，却偶尔能迸发出令人眼前一亮的创新解法。

测试还揭示，AI在不同创意任务类型上表现差异显著。在组合创造力任务中，扩大模型规模带来的提升较为明显，这得益于大模型更庞大的知识图谱，能在不同概念间建立更多连接。然而，在探索创造力任务中，单纯增加参数带来的收益会出现边际递减，这提示我们，提升AI的突破性创新能力可能需要全新的训练范式或架构改进。

此外，推理能力对创造力的影响呈现“非对称性”。当AI启用深度推理（如链式思维）时，其在需要破解约束的探索性任务中表现更佳，如同一位深思熟虑的侦探能系统性地分析线索。但在需要直觉与跳跃性关联的组合任务中，深度推理的助益相对有限，这暗示着不同类型的创造性思维，可能依赖于不同的认知处理机制。

二、EvoRePE：赋能AI进化思维的核心技术突破

为突破AI创造力瓶颈，研究团队创新性地提出了名为EvoRePE（进化表征工程）的方法。其核心思想极具启发性：既然进化算法能通过“变异-选择”的迭代过程探索出创新解，能否将这种进化思维模式抽象为一种可迁移的“思维模块”，并让AI系统学会调用它？

可以做一个类比：EvoRePE旨在学习并提炼高手的“思维心法”。观察创意天才工作时，他们往往有一套独特的心理表征和问题重构方式。EvoRePE的目标就是识别并提取这种“创造性思维向量”，然后将其“植入”到其他AI的推理过程中。

具体而言，研究团队首先驱动进化算法在大量创意任务上运行，完整记录其从常规解向创新解演进的路径。接着，他们深入分析AI系统在此过程中内部表征（即其对问题的理解和编码方式）的动态变化，定位那些与创造力跃升最相关的关键模式。最终，将这些模式凝练成一个通用的“创意激发向量”，在AI进行问题推理时，将其如同“思维催化剂”般注入系统的内部状态，引导其朝更具创意的方向演进。

该方法的最大优势在于其“即插即用”特性，无需对庞大规模的基座模型进行重新训练。好比为一位技艺娴熟的工匠配备了一套大师级的创意工具包，能即刻拓展其创作边界。实验证明，EvoRePE能显著提升各类AI模型在CreativeBench上的创意得分，并且这种提升能与传统的进化优化方法形成有效互补，产生协同增效。

更令人振奋的是，EvoRePE的增益效果在不同参数规模的模型上均表现稳定。无论是轻量级模型还是千亿参数大模型，都能从这次“思维赋能”中普遍受益。这似乎表明，创造性思维背后可能存在某种普适的、可迁移的内在计算原理，而EvoRePE成功地捕捉并利用了它。

三、科学量化：创意评估方法论的深度解析

为确保评估的严谨与公正，CreativeBench在方法论层面进行了多项创新。传统的编程评测通常只关注“功能正确性”，如同考试只核对最终答案。而CreativeBench构建了一个双维评估框架，同步考量解决方案的“实现质量”与“构思新颖性”。

质量评估相对直接，通过在沙箱环境中执行程序并验证其输出是否符合预期。而新颖性的量化则复杂得多，需要精确度量一个解决方案与已知常见方案的“距离”。研究团队采用了一套组合评估策略：既使用了经过专门训练的代码语义嵌入模型，以捕捉程序深层逻辑结构的差异；又引入了字符级的n-gram距离分析，以防止简单的变量重命名或代码格式调整被误判为实质性创新。

这套双重保障机制确保了评分的客观性。语义嵌入模型负责识别功能与逻辑上的真正革新，而n-gram距离则充当了“查重过滤器”，防止“新瓶装旧酒”式的把戏。如同评价一项发明，既要审视其原理之新，也要核查其实现之异。

为验证自动化评估的可靠性，研究团队邀请了经验丰富的软件工程师对随机题目样本进行人工双盲评审。结果显示，自动化评分与人类专家的判断具有高度一致性，相关系数达到0.78，这在大规模评估中属于极高的信度水平。更值得一提的是，通过人工审核确认，整个数据集的题目有效率高达89.1%，这对于完全自动化生成的数据集而言，是一个卓越的质量指标。

四、全自动生成：构建高质量创意题目的流水线

CreativeBench的另一大亮点是其全自动化的题目生成流水线。传统评测题目依赖人工设计，成本高昂且难以保证规模与多样性。研究团队构建了一套能够自动、高效生产高质量创意考题的系统。

针对组合创造力题目，系统采用基于逆向工程的生成策略。首先引导AI融合不同技术领域的代码，生成一个功能正确的复合程序，然后自动生成配套的测试用例以验证其各种边界行为，最后根据程序的功能反向推导出清晰、无歧义的题目描述。此过程确保了题目与解决方案在逻辑上的严密对应。

针对探索创造力题目，系统则采用基于自我博弈的对抗生成方式。一个“约束生成器”会分析该题目的标准解法，识别其中的核心模式或常见API，然后设计约束条件来禁止使用这些元素。另一个“求解器”则需在“戴着镣铐”的情况下探索新路径。双方不断迭代对抗，约束条件逐步收紧，直至逼近求解的能力极限。这种动态过程确保了题目既具备足够的挑战性，又在技术上存在可行解。

为保证最终数据集的品质，系统内置了三级过滤机制：难度过滤器剔除过于简单的题目；一致性检查器确保题目描述与测试用例完美匹配；多样性筛查器避免出现语义重复的题目。每一环节都设有严格的量化阈值，如同精密制造中的质量管控点，确保产出的每道题目都符合高标准。

五、机制探索：AI创造力背后的规律与洞察

通过对海量测试数据的深入分析，研究揭示了一些关于机器创造力的深刻规律。首先是“模型规模效应”的非对称性。在需要整合多种知识的组合任务中，参数更大的模型优势明显，这很可能得益于其更丰富的知识储备，能在更广的语义空间内建立连接。然而，在需要打破思维定式的探索性任务中，单纯扩大模型规模的边际收益会显著降低。这暗示着，突破性创新可能更需要一种不同于知识积累的、专注于搜索与重构的认知策略。

另一个关键发现关乎“系统推理”的作用。当AI启用深度推理（如逐步推导）时，其在应对复杂约束的探索任务中表现更优，能够更有条理地分析限制条件并寻找漏洞。这如同一位策略家，通过系统推演能找到更多破局点。但在需要灵感和跨域联想的组合任务中，过于按部就班的推理有时反而会限制思维的发散性。

研究还观察到了“创新性-准确性权衡”现象：模型越大、在传统基准上越精确，其输出往往越倾向于“安全区”，更少产出高风险、高新颖性的方案。这折射出现行AI训练范式（极度强调预测准确性）的一个潜在局限——可能在无形中抑制了模型的探索与冒险倾向。这一发现对未来追求通用人工智能（AGI）的研究方向具有重要启示。

六、实践验证：EvoRePE技术的有效性与普适性

EvoRePE方法的成功，不仅在于其理论创新，更在于其经过了 rigorous 的实验验证。大量对照实验表明，该方法在不同架构的模型、不同难度的任务上均能带来一致的性能提升。

更重要的是，EvoRePE展现了出色的鲁棒性与可解释性。测试发现，在模型网络的中后层进行“创意向量”注入效果最佳，这与神经科学中“高级抽象思维发生在大脑皮层联合区”的认知相呼应。同时，通过调节向量的注入强度，可以在“创新性”和“可靠性”之间实现精细的权衡，避免因过度追求新奇而导致解决方案失效。

该方法的另一大优势是极高的计算效率。与传统的进化算法需要消耗巨量计算资源进行搜索不同，EvoRePE仅需一次性提取创意模式，此后便能以近乎零的额外推理成本应用于各种任务。这为其在真实世界的软件开发、科研辅助等场景中的实际部署扫清了障碍，如同为现有AI系统加装了一个高效的“创意增强模块”。

七、理论基石：创意评估标准的科学构建逻辑

CreativeBench在评估标准上的设计理念深植于认知科学。传统AI测试常聚焦单一指标，但创造力本质是多维的。研究团队基于“P-创造力”（对个体而言是新的）理论，将评估重点放在AI能否产生对其自身知识分布而言新颖的方案，而非追求绝对的、史无前例的“H-创造力”。

这一选择经过审慎考量。评估“历史创造力”面临根本性难题：如何断定一个方案在整个人类历史中从未出现过？尤其是对于使用互联网海量数据训练的AI，这几乎无法客观验证。而评估“心理创造力”则更具可操作性：只要AI能偏离其最可能的输出模式，产生功能正确且结构新颖的方案，便证明了其内在的创造性过程。

为量化这种新颖性，团队设计了一套基于距离的度量体系。对于组合任务，通过计算融合方案与各来源领域方案的平均语义距离来衡量其“融合度”；对于探索任务，则计算受约束方案与无约束基准方案之间的差异度。这套兼顾语义与形式的度量方法，为客观、可复现的AI创造力评估奠定了坚实基础。

八、未来展望：研究对AI发展的深远意义与影响

此项研究的影响是广泛而深远的。从技术层面看，它首次为机器创造力领域提供了一个标准化、大规模、可公开评测的基准，如同为该领域树立了统一的“度量衡”，使得全球研究团队的进展可以进行公平、透明的比较。

从方法论看，它成功示范了如何将认知科学的理论框架与前沿的机器学习技术深度结合，为跨学科创新研究提供了优秀范本。这种结合不仅提升了AI的能力上限，也反过来促进了我们对人类创造力计算本质的理解。

EvoRePE的成功则开辟了一条新路径：通过“内部表征工程”来精准、高效地增强AI的特定高阶能力。这种方法避免了重训巨型模型的巨大成本，通过微调内部机制实现能力跃升，具有极高的实用价值与可扩展性。未来，我们或许会看到一系列针对不同认知能力的“增强插件”出现。

对于产业应用而言，其意义更为重大。随着AI创意能力的实质性提升，它们将在软件工程、药物研发、材料科学、艺术创作等需要大量创新思维的领域扮演更核心的角色。这不仅将重塑行业工作流程，更可能成为拓展人类创造力边界的强大协同伙伴。

同时，研究也暴露了当前以大语言模型为代表的AI训练范式的内在局限，为未来的改进指明了方向。过度强调预测下一个词（token）的准确性，可能会在损失函数层面抑制输出的多样性。未来的AI系统或许需要在训练目标中引入对“探索”和“风险”的考量，在“精确”与“创新”之间寻求新的平衡点，这将在数据构造、训练算法和模型架构等多个层面引发变革。

归根结底，这项研究最重要的贡献，或许在于它重新锚定了我们对机器智能的期待与想象。过去，AI主要被视为高效、准确的信息处理工具；现在，我们开始严肃而科学地探讨它们成为“创造性思维体”的潜力与路径。虽然前路漫漫，但这项研究无疑点亮了重要的航标。

当然，机器创造力的发展必然伴随深刻的伦理与社会思考。如果AI具备了强大的自主创新能力，人类的独特价值将如何定义？如何引导这种能力用于解决全球性挑战而非制造新的问题？这些问题尚无定论，但像CreativeBench这样的科学工具，至少为我们理性、深入地探讨这些问题提供了共同的语言和事实基础。

这项研究标志着一个新篇章的开启。它不仅在推动技术进步，更在拓展智能本身的定义。在这个人机共生、协同进化的时代，深入理解并善用机器的创造力，或许是塑造一个更富创新活力未来的关键所在。正如研究所展望的，这仅仅是一段激动人心的漫长探索之旅的开端。

Q&A

Q1：CreativeBench是什么，它如何评估AI的创造力？

A：CreativeBench是一个由南京理工大学、清华大学等高校联合研发的标准化AI创造力评测基准，包含1859道涵盖多技术领域的编程题目。它将创造力科学划分为组合创造力（跨领域知识融合）和探索创造力（约束条件下突破创新），通过综合评估生成程序的功能正确性及其与常规方案的差异度，来量化AI的创意水平。

Q2：EvoRePE方法是如何提升AI创造力的？

A：EvoRePE（进化表征工程）是一种创新的AI能力增强方法。其核心是通过分析进化算法在求解创意问题时的内部思维变化，提炼出关键的“创造性思维模式向量”。随后，在AI进行推理时，将该向量注入其内部表征中，引导其思维过程。这种方法无需重新训练庞大模型，即插即用，能有效激发AI产生更具创新性的解决方案。

Q3：当前最先进的AI系统在创造力测试中表现如何？

A：测评结果显示，即便是当前顶尖的Gemini-3-Pro等大语言模型，在CreativeBench上的整体通过率也未超过60%，表明AI在创造性问题解决方面仍有巨大提升空间。研究还发现了“规模化收敛”现象：模型参数越大、在传统任务上越精确，其输出往往越趋保守，更倾向于给出标准答案，而非尝试新颖、有风险的解法。

来源:https://www.techwalker.com/2026/0324/3182085.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：三星AI突破长文本处理瓶颈实现机器持久记忆新方法下一篇：UBC与Vector研究院攻克AI资源管理难题机器人低成本高效运行指南