纽约大学研究团队开发AI想象力基准测试新方法_AI热点日报

纽约大学研究团队开发AI想象力基准测试新方法

类型：热点整理2026-05-14

如何科学评估人工智能是否具备真正的想象力？纽约大学与德州大学奥斯汀分校的研究团队近期在预印本平台arXiv（论文编号：2603 09970v1）上发表了一项突破性研究，推出了名为CREATE的AI创造力评估基准。这项发表于2026年3月的工作，为量化与提升机器的创造性思维能力提供了全新的方法论与测试

如何科学评估人工智能是否具备真正的想象力？纽约大学与德州大学奥斯汀分校的研究团队近期在预印本平台arXiv（论文编号：2603.09970v1）上发表了一项突破性研究，推出了名为CREATE的AI创造力评估基准。这项发表于2026年3月的工作，为量化与提升机器的创造性思维能力提供了全新的方法论与测试工具。

纽约大学团队创造性基准测试：让AI也能

该研究由纽约大学的Manya Wadhwa、Tiasa Singha Roy、Greg Durrett以及德州大学奥斯汀分校的Harvey Lederman和Junyi Jessy Li共同完成。团队致力于解决一个核心问题：如何设计出能有效区分AI是进行真正创造性联想，还是仅重复训练数据模式的客观评测体系？

传统创造力测试的不足与CREATE的创新设计

以往评估创造力的经典方法，如“替代用途测试”或“远距离联想测试”，对当今的大语言模型而言已过于简单，且存在数据泄露风险——AI很可能在训练阶段就已接触过标准答案。这如同让考生参加一场已知题目的考试，无法反映真实能力。

CREATE基准的革新之处在于，它要求AI系统在一个庞大的知识图谱中，自主发现并构建连接两个看似无关概念的创造性路径。这类似于在一个全球社交网络中，为两位毫无交集的公众人物设计出有趣且合理的关联链条。例如，任务可能是“将演员达科塔·约翰逊与科幻奇幻电影演员联系起来”。一种创造性路径可以是：达科塔·约翰逊主演了《物质主义者》，该片男主角克里斯·埃文斯曾出演《美国队长》系列科幻电影。另一种路径则可通过家庭关系：她是安东尼奥·班德拉斯的继女，而班德拉斯曾为《怪物史莱克2》配音，这是一部奇幻动画。

多层次创造性思维能力的考察

研究发现，此类任务需要AI展现多层次的认知能力。首先是在海量知识中进行高效检索与探索，如同在迷宫中寻找出路。其次是评估路径的创造性价值，确保连接既真实可靠又新颖独特。最后还需生成多样化的解决方案，避免答案同质化。

为此，研究团队构建了一个包含931个自然语言查询的基准数据集，覆盖演员、基因、化学物质、运动员等多个领域。每个查询都要求AI提供多条连接起点与终点的独特路径，好比为用户规划数条主题各异、风景独特的旅行路线。

精妙的双维度评估：特异性与多样性

CREATE采用了一套巧妙的评估体系，同时考量“路径特异性”与“答案集多样性”。特异性衡量单条路径的紧密性与独特性，如同评价一条旅行路线的亮点浓度。多样性则确保整体答案的丰富度，防止模型陷入单一思维模式。

团队进一步提出了“创造性效用”这一综合指标，将质量与多样性有机结合，并引入了“用户耐心”参数——模拟真实场景中用户愿意浏览答案的深度。这就像一位优秀的向导，既能推荐经典路线，也能根据游客兴趣层层递进，揭示更多隐藏景观。

主流模型测试结果与反直觉发现

研究对GPT系列、Claude系列、Gemini及多个开源模型进行了系统评估。结果显示，性能最强的模型在创造性效用上确实领先，但即便顶尖模型在面对此类开放域创造任务时仍显吃力。一个反直觉的发现是：具备“思维链”复杂推理能力的模型，并未因其更深的“思考”过程而显著优于标准生成模式，即使分配了更多计算资源。

这一现象颇具启示：如同延长思考时间不一定能让人更有创意，单纯增加AI的计算预算也未必能直接提升其创造性产出。这暗示真正的机器创造力可能需要超越现有架构的新范式。

团队还尝试了多种提示工程策略，如直接指令“请发挥创意”或要求模型输出概率分布，但这些方法带来的提升有限，表明激发AI创造力远非一句简单指令所能解决。

创造性路径的模式分析与核心权衡

通过分析高质量创意路径，研究总结出一些共性模式：最具创造性的连接往往成功桥接了不同知识领域，将看似离散的概念以巧妙且合理的方式关联。例如，将娱乐界人物与学术成就相连，或将体育明星与文化事件结合。这些路径事实正确，却出乎常人意料。

不同模型也展现出迥异的“创作风格”：有些倾向于“广撒网”，生成大量路径但质量不均；有些则更为“谨慎”，产出较少但精度较高。理想的创造性AI应能在发散与收敛之间取得平衡。

研究尤其揭示了“创造性”与“事实准确性”之间存在的内在权衡。追求更高新颖性的模型，有时会在事实细节上出现松动；而严格恪守准确性的模型，其答案往往趋于保守。这指出了发展可信赖的AI创造力所必须解决的核心矛盾：如何在坚守真实性的前提下，充分释放联想潜能。

研究的广泛影响与未来方向

此项工作的意义远超学术范畴。随着AI日益深入科学研究、艺术创作、商业创新及教育等需要创造力的领域，准确评估并增强其创造性能力变得至关重要。CREATE基准为这一进程提供了可量化、可复现的标尺。

更重要的是，它指明了未来AI发展的潜在路径：实现真正的机器创造力，或许不仅需要更大规模的数据与参数，更可能需要借鉴人类心智中直觉、类比与情感融合的复杂机制，设计全新的认知架构。

尽管当前顶尖AI已在CREATE测试中展现出初步的创造性联想能力，但与人类丰富、深邃且充满直觉的创造力相比，仍有巨大差距。这既是挑战，也是机遇。研究团队期望CREATE能激发更多研究者探索让机器真正获得想象与创新能力的路径。

归根结底，这项研究揭示：创造力的本质不在于答案，而在于探索答案的思维过程。当我们在知识网络中训练AI寻找新颖连接时，我们正是在培育其想象力的幼苗。虽然前路漫漫，但AI已开始展现令人惊喜的联想火花。技术的持续演进，或许终将让机器能在看似无关的万物之间，发现那些意想不到却美妙非凡的联系。

Q&A

Q1：CREATE基准测试是什么？

A：CREATE是由纽约大学和德州大学奥斯汀分校联合开发的AI创造力评估基准，专门用于测试AI系统在不同概念间建立新颖、合理连接的能力。它通过要求AI在庞大知识图谱中构建创造性关联路径（例如，找出从某位演员到科幻电影演员的有趣联系），来评估其联想创新能力。该基准有效避免了传统测试中AI可能“记忆答案”的问题，更能真实反映其创造性思维水平。

Q2：为什么现有的创造力测试不适合AI？

A：传统创造力测试（如列举物品非常规用途）对现代大语言模型而言难度过低，且其测试内容很可能已包含在模型的训练数据中，导致测试失效。CREATE基准通过构建基于真实世界知识的、近乎无限可能的关联任务，创造了一个难以通过机械记忆应对的挑战，从而能更准确、更公平地衡量AI的原创性想象力。

Q3：哪些AI模型在CREATE测试中表现最好？

A：评估表明，如GPT-5、Gemini-3-pro等最新的大型语言模型在创造性效用上领先。但一个关键发现是，采用“思维链”等复杂推理机制的模型，其表现并未显著优于标准生成模式。这提示我们，提升AI创造力不能仅依赖增加“思考”深度或计算量，而可能需要从根本上革新其产生新颖想法的底层机制。

来源：https://www.techwalker.com/2026/0323/3181992.shtml

ai

延伸阅读

补充最近整理过的热点入口。