首页 游戏 软件 资讯 排行榜 专题
首页
AI
纽约大学研究团队开发AI想象力基准测试新方法

纽约大学研究团队开发AI想象力基准测试新方法

热心网友
32
转载
2026-05-14

如何科学评估人工智能是否具备真正的想象力?纽约大学与德州大学奥斯汀分校的研究团队近期在预印本平台arXiv(论文编号:2603.09970v1)上发表了一项突破性研究,推出了名为CREATE的AI创造力评估基准。这项发表于2026年3月的工作,为量化与提升机器的创造性思维能力提供了全新的方法论与测试工具。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

纽约大学团队创造性基准测试:让AI也能

该研究由纽约大学的Manya Wadhwa、Tiasa Singha Roy、Greg Durrett以及德州大学奥斯汀分校的Harvey Lederman和Junyi Jessy Li共同完成。团队致力于解决一个核心问题:如何设计出能有效区分AI是进行真正创造性联想,还是仅重复训练数据模式的客观评测体系?

传统创造力测试的不足与CREATE的创新设计

以往评估创造力的经典方法,如“替代用途测试”或“远距离联想测试”,对当今的大语言模型而言已过于简单,且存在数据泄露风险——AI很可能在训练阶段就已接触过标准答案。这如同让考生参加一场已知题目的考试,无法反映真实能力。

CREATE基准的革新之处在于,它要求AI系统在一个庞大的知识图谱中,自主发现并构建连接两个看似无关概念的创造性路径。这类似于在一个全球社交网络中,为两位毫无交集的公众人物设计出有趣且合理的关联链条。例如,任务可能是“将演员达科塔·约翰逊与科幻奇幻电影演员联系起来”。一种创造性路径可以是:达科塔·约翰逊主演了《物质主义者》,该片男主角克里斯·埃文斯曾出演《美国队长》系列科幻电影。另一种路径则可通过家庭关系:她是安东尼奥·班德拉斯的继女,而班德拉斯曾为《怪物史莱克2》配音,这是一部奇幻动画。

多层次创造性思维能力的考察

研究发现,此类任务需要AI展现多层次的认知能力。首先是在海量知识中进行高效检索与探索,如同在迷宫中寻找出路。其次是评估路径的创造性价值,确保连接既真实可靠又新颖独特。最后还需生成多样化的解决方案,避免答案同质化。

为此,研究团队构建了一个包含931个自然语言查询的基准数据集,覆盖演员、基因、化学物质、运动员等多个领域。每个查询都要求AI提供多条连接起点与终点的独特路径,好比为用户规划数条主题各异、风景独特的旅行路线。

精妙的双维度评估:特异性与多样性

CREATE采用了一套巧妙的评估体系,同时考量“路径特异性”与“答案集多样性”。特异性衡量单条路径的紧密性与独特性,如同评价一条旅行路线的亮点浓度。多样性则确保整体答案的丰富度,防止模型陷入单一思维模式。

团队进一步提出了“创造性效用”这一综合指标,将质量与多样性有机结合,并引入了“用户耐心”参数——模拟真实场景中用户愿意浏览答案的深度。这就像一位优秀的向导,既能推荐经典路线,也能根据游客兴趣层层递进,揭示更多隐藏景观。

主流模型测试结果与反直觉发现

研究对GPT系列、Claude系列、Gemini及多个开源模型进行了系统评估。结果显示,性能最强的模型在创造性效用上确实领先,但即便顶尖模型在面对此类开放域创造任务时仍显吃力。一个反直觉的发现是:具备“思维链”复杂推理能力的模型,并未因其更深的“思考”过程而显著优于标准生成模式,即使分配了更多计算资源。

这一现象颇具启示:如同延长思考时间不一定能让人更有创意,单纯增加AI的计算预算也未必能直接提升其创造性产出。这暗示真正的机器创造力可能需要超越现有架构的新范式。

团队还尝试了多种提示工程策略,如直接指令“请发挥创意”或要求模型输出概率分布,但这些方法带来的提升有限,表明激发AI创造力远非一句简单指令所能解决。

创造性路径的模式分析与核心权衡

通过分析高质量创意路径,研究总结出一些共性模式:最具创造性的连接往往成功桥接了不同知识领域,将看似离散的概念以巧妙且合理的方式关联。例如,将娱乐界人物与学术成就相连,或将体育明星与文化事件结合。这些路径事实正确,却出乎常人意料。

不同模型也展现出迥异的“创作风格”:有些倾向于“广撒网”,生成大量路径但质量不均;有些则更为“谨慎”,产出较少但精度较高。理想的创造性AI应能在发散与收敛之间取得平衡。

研究尤其揭示了“创造性”与“事实准确性”之间存在的内在权衡。追求更高新颖性的模型,有时会在事实细节上出现松动;而严格恪守准确性的模型,其答案往往趋于保守。这指出了发展可信赖的AI创造力所必须解决的核心矛盾:如何在坚守真实性的前提下,充分释放联想潜能。

研究的广泛影响与未来方向

此项工作的意义远超学术范畴。随着AI日益深入科学研究、艺术创作、商业创新及教育等需要创造力的领域,准确评估并增强其创造性能力变得至关重要。CREATE基准为这一进程提供了可量化、可复现的标尺。

更重要的是,它指明了未来AI发展的潜在路径:实现真正的机器创造力,或许不仅需要更大规模的数据与参数,更可能需要借鉴人类心智中直觉、类比与情感融合的复杂机制,设计全新的认知架构。

尽管当前顶尖AI已在CREATE测试中展现出初步的创造性联想能力,但与人类丰富、深邃且充满直觉的创造力相比,仍有巨大差距。这既是挑战,也是机遇。研究团队期望CREATE能激发更多研究者探索让机器真正获得想象与创新能力的路径。

归根结底,这项研究揭示:创造力的本质不在于答案,而在于探索答案的思维过程。当我们在知识网络中训练AI寻找新颖连接时,我们正是在培育其想象力的幼苗。虽然前路漫漫,但AI已开始展现令人惊喜的联想火花。技术的持续演进,或许终将让机器能在看似无关的万物之间,发现那些意想不到却美妙非凡的联系。

Q&A

Q1:CREATE基准测试是什么?

A:CREATE是由纽约大学和德州大学奥斯汀分校联合开发的AI创造力评估基准,专门用于测试AI系统在不同概念间建立新颖、合理连接的能力。它通过要求AI在庞大知识图谱中构建创造性关联路径(例如,找出从某位演员到科幻电影演员的有趣联系),来评估其联想创新能力。该基准有效避免了传统测试中AI可能“记忆答案”的问题,更能真实反映其创造性思维水平。

Q2:为什么现有的创造力测试不适合AI?

A:传统创造力测试(如列举物品非常规用途)对现代大语言模型而言难度过低,且其测试内容很可能已包含在模型的训练数据中,导致测试失效。CREATE基准通过构建基于真实世界知识的、近乎无限可能的关联任务,创造了一个难以通过机械记忆应对的挑战,从而能更准确、更公平地衡量AI的原创性想象力。

Q3:哪些AI模型在CREATE测试中表现最好?

A:评估表明,如GPT-5、Gemini-3-pro等最新的大型语言模型在创造性效用上领先。但一个关键发现是,采用“思维链”等复杂推理机制的模型,其表现并未显著优于标准生成模式。这提示我们,提升AI创造力不能仅依赖增加“思考”深度或计算量,而可能需要从根本上革新其产生新颖想法的底层机制。

来源:https://www.techwalker.com/2026/0323/3181992.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

微软AI在线体验学习法让智能体越用越聪明
AI
微软AI在线体验学习法让智能体越用越聪明

这项由微软研究院团队完成的研究,已于2026年3月发表于arXiv预印本数据库,论文编号为arXiv:2603 16856v1。它被定位为“体验学习系列”研究的第二部分,其前序工作专注于“在线策略情境蒸馏”技术。 学会骑自行车后,每一次上路都会让我们的技术更娴熟。但今天的主流大语言模型,却像一本印刷

热心网友
05.14
芝加哥大学研究突破AI可逐步生成矢量草图
AI
芝加哥大学研究突破AI可逐步生成矢量草图

芝加哥丰田技术研究院(TTI-Chicago)、芝加哥大学与麻省理工学院的一项联合研究,为人工智能在创意生成领域带来了突破性进展。这项发表于2026年的研究(论文编号:arXiv:2603 19500v1),核心目标是教会AI模仿人类画家的创作思维——不再是杂乱无章地一次性输出,而是像真正的艺术家那

热心网友
05.14
高通AI技术覆盖可穿戴PC座舱平台已上车7500万辆
AI
高通AI技术覆盖可穿戴PC座舱平台已上车7500万辆

美国太平洋时间2026年3月17日,高通公司年度股东大会如期举行。会上,公司总裁兼CEO安蒙系统阐述了高通在多元化战略布局上的最新进展与长期愿景,核心聚焦于如何将智能从云端推向“边缘”,并最终融入我们身边的每一个场景。 安蒙在开场便点明了当前技术浪潮的核心驱动力:AI。他指出,AI正在从根本上重塑人

热心网友
05.14
华东师大团队揭秘AI任务进度理解机制让机器学会自我奖励
AI
华东师大团队揭秘AI任务进度理解机制让机器学会自我奖励

这项由华东师范大学与香港科技大学联合主导的前沿研究,为人工智能领域长期存在的核心挑战——奖励预测与泛化问题,提供了突破性的解决方案。论文编号arXiv:2603 09400v1,为读者提供了完整的学术参考。 人类在执行日常任务时,大脑会持续进行内在评估:“当前进展如何?”“距离目标还有多远?”这种与

热心网友
05.14
AI落地最大障碍并非技术而是员工被替代的焦虑
AI
AI落地最大障碍并非技术而是员工被替代的焦虑

过去,衡量一位首席信息官(CIO)是否合格,标准相对明确:保障系统稳定运行、控制预算、避免重大故障。然而,当前这一角色正经历一场深刻而静默的重塑。企业决策层不再仅仅将技术部门视为支持业务的“后勤单位”,他们更期望CIO能够成为驱动业务创新、重塑工作模式乃至构建面向未来的AI赋能型组织的核心引擎。这已

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

财务智能化时代财务人员的应对策略与转型路径
业界动态
财务智能化时代财务人员的应对策略与转型路径

财务智能化浪潮正深刻重塑行业格局,这既是严峻挑战,更是历史性机遇。对于广大财务从业者而言,固步自封意味着职业风险,主动转型才是破局关键。那么,财务人员如何应对智能化转型?核心在于积极拥抱变化,将人工智能、大数据等前沿技术内化为自身的核心竞争力。 一、持续学习,实现技能进阶 在智能化时代,学习已成为财

热心网友
05.14
大语言模型AI智能体平台构建与应用指南
业界动态
大语言模型AI智能体平台构建与应用指南

在探讨人工智能的最新进展时,语言大模型已成为一个无法回避的核心议题。它早已超越了实验室研究的范畴,正作为构建新一代AI智能体的关键平台,深刻改变着我们与机器交互、协作乃至共同进化的模式。 那么,语言大模型为何能成为AI发展的基石?其核心优势在于强大的理解与生成能力。通过对海量文本数据的深度学习与算法

热心网友
05.14
大语言模型微调技术详解与实战优化指南
业界动态
大语言模型微调技术详解与实战优化指南

人工智能的浪潮正席卷而来,其中,大语言模型无疑是浪尖上最耀眼的明珠。它们动辄千亿参数的庞大体量,以及背后精妙的深度学习架构,让机器理解并生乘人类语言的能力达到了前所未有的高度。不过,一个现实问题也随之浮现:这些“通才”型巨无霸,如何能精准地服务于千差万别的具体场景?答案的关键,就在于“微调”这项技术

热心网友
05.14
全栈AI虚拟人解决方案与3D数字化定制服务
业界动态
全栈AI虚拟人解决方案与3D数字化定制服务

在数字化浪潮席卷全球的今天,一项融合前沿AI与3D技术的创新解决方案正引领人机交互的新趋势。实在智能重磅推出的全栈AI虚拟人解决方案,深度融合了自然语言处理与3D数字化定制技术,旨在为用户打造前所未有的沉浸式交互体验。这不仅是一次技术升级,更是智能科技迈向人性化、情感化的重要里程碑。 那么,这套AI

热心网友
05.14
流程挖掘算法入门指南与核心方法解析
业界动态
流程挖掘算法入门指南与核心方法解析

在当今企业数字化转型的进程中,流程挖掘技术已成为提升运营效率与管理水平的关键工具。它如同一位专业的“企业流程医生”,能够基于真实数据为企业进行精准诊断并提供优化“处方”。 那么,什么是流程挖掘?简单来说,它是一种从企业信息系统(如ERP、CRM)的事件日志中自动发现、监控和改进实际业务流程的技术。它

热心网友
05.14