首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Ubiquant发布通用推理模型URM:实现AI类人思维循环

Ubiquant发布通用推理模型URM:实现AI类人思维循环

热心网友
33
转载
2025-12-20


这项由Ubiquant公司研究团队完成的突破性研究发表于2025年12月16日的arXiv预印本平台(编号:arXiv:2512.14693v1),论文作者包括高子天、陈林霞、肖义豪、邢贺、陶然、罗浩明、周乔伊和戴布赖恩等研究者。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当我们解决复杂数学题时,往往需要反复思考、修正错误、重新尝试,这个循环过程正是人类智慧的体现。而现在,Ubiquant的研究团队成功让人工智能也学会了这种"反复琢磨"的思考方式,创造出了一个名为通用推理模型(Universal Reasoning Model,简称URM)的AI系统。

这个系统在目前最具挑战性的AI推理测试——ARC-AGI测试中取得了令人瞩目的成绩。如果把这个测试比作AI界的高考,那么URM在ARC-AGI 1版本中达到了53.8%的正确率,在更困难的ARC-AGI 2版本中也获得了16.0%的正确率。这些数字看起来可能不算惊人,但要知道,这些测试题目连很多聪明的人类都觉得头疼,而且URM还在数独游戏中达到了77.6%的准确率,证明了它确实具备了某种接近人类的推理能力。

研究团队深入剖析了为什么有些AI模型在复杂推理任务上表现突出,他们发现关键并不在于模型有多么复杂的架构设计,而在于一种被称为"循环归纳偏置"的机制。简单来说,就像我们做难题时会反复思考一样,这些优秀的AI模型也会对同一个问题进行多轮处理,每一轮都能让答案变得更加精确。

一、什么是通用变换器?为什么循环思考如此重要?

要理解URM的工作原理,我们首先需要了解它的基础——通用变换器(Universal Transformer)。如果把传统的AI模型比作流水线工厂,那么每个工作站点都有专门的工人负责特定任务,产品从第一个工作站依次传递到最后一个工作站完成生产。这种方式效率很高,但缺乏灵活性。

而通用变换器更像是一个熟练的工匠作坊,只有一个万能工匠,但他可以对同一件作品进行反复加工和完善。工匠会拿起一件半成品,仔细检查、修改、改进,然后再次检查这个改进后的版本,如此循环往复,直到作品达到满意的质量。这个"反复加工"的过程就是循环计算,而"万能工匠"就是参数共享机制。

研究团队通过大量实验证实了一个重要发现:那些在复杂推理任务上表现优异的AI模型,其成功的秘诀主要来自于这种循环处理机制,而不是复杂的模型架构。就像解数学题一样,关键不在于你用了多少种不同的方法,而在于你是否愿意反复检查和改进你的答案。

为了验证这个发现,研究团队设计了一个对比实验。他们比较了传统变换器和通用变换器在相同计算资源下的表现。结果显示,即使传统变换器使用了32倍的参数量,在ARC-AGI测试中的正确率也只有23.75%,而参数量少得多的通用变换器却能达到40.0%的正确率。这就像是用复杂昂贵的机器生产的产品,质量反而不如经验丰富的手工艺人精心制作的作品。

二、URM的创新:短卷积模块让思考更加细致

虽然循环处理是关键,但研究团队发现还有改进空间。他们注意到,在人类思考过程中,我们不仅会反复思考整体问题,还会特别关注细节之间的关系。比如在解决视觉推理题目时,我们会仔细观察相邻图案之间的关系,寻找局部规律。

基于这个观察,研究团队为URM增加了一个名为ConvSwiGLU的短卷积模块。如果把原来的处理方式比作用放大镜逐个检查每个部件,那么加入短卷积模块后,AI就像戴上了特殊的眼镜,能够同时看清楚相邻部件之间的微妙关系。

这个改进看似微小,但效果显著。在ARC-AGI测试中,加入短卷积模块后的模型正确率从45.3%提升到了53.8%,提升幅度相当可观。研究团队还发现,这个模块最好放置在模型的非线性处理部分,也就是说,在AI已经对信息进行初步加工之后,再让它关注局部细节关系,效果最佳。

三、截断反向传播:避免"想太多"的困扰

当AI模型进行太多轮循环思考时,就会出现一个有趣的现象,类似于人类"想太多"的情况。就像我们解题时如果反复纠结于前面的步骤,可能会影响整体的思考效率,甚至产生负面影响。

研究团队发现,当模型进行8轮循环处理时,如果让所有8轮都参与学习过程的反馈调整,效果反而不如只让后面6轮参与调整。这就像是告诉AI:"前面两轮的思考就当作热身,不用太在意对错,从第三轮开始才认真计分。"

这种被称为截断反向传播的技术,让模型在保持循环思考优势的同时,避免了过度纠结早期步骤的问题。实验结果显示,采用这种方法后,模型在ARC-AGI测试中的正确率从36.25%提升到了39.13%,证明了这种"适度放松"策略的有效性。

四、非线性能力是推理的核心

研究团队还做了一个有趣的实验,逐步削弱模型的非线性处理能力,观察推理性能的变化。结果令人印象深刻:随着非线性能力的减弱,模型的推理表现呈现出明显的下降趋势。

具体来说,当他们将高级的SwiGLU激活函数替换为简单的SiLU时,模型正确率从53.75%下降到29.75%。而当进一步简化为更基础的ReLU函数时,正确率继续下降到28.63%。最极端的情况是完全移除注意力机制中的softmax函数,这时模型几乎完全失去了推理能力,正确率跌至仅有2.00%。

这个实验揭示了一个重要真相:复杂推理任务需要强大的非线性处理能力。就像烹饪需要各种调料来创造丰富的口感一样,AI推理也需要多样化的非线性变换来处理复杂的逻辑关系。这解释了为什么URM要特别强化非线性组件,以及为什么短卷积模块能够带来显著改善。

五、优化器选择:训练效率的提升

在实际训练过程中,研究团队还比较了不同优化算法的效果。他们发现,使用名为Muon的先进优化器比传统的Adam优化器能够更快地达到相同的性能水平。在ARC-AGI 2测试中,Muon优化器只需要大约60万次训练步骤就能达到11.5%的正确率,而Adam优化器需要超过130万次步骤才能达到同样水平,训练速度几乎快了一倍。

不过有趣的是,虽然Muon优化器能让模型更快地学会推理技巧,但最终两种优化器训练出的模型性能相当。这说明优化器主要影响的是学习效率,而不是模型的最终能力上限。

六、与其他模型的全面对比

为了充分验证URM的优势,研究团队将其与目前最先进的同类模型进行了全面对比。在ARC-AGI 1测试中,URM的53.8%正确率远超TRM模型的40.0%和HRM模型的34.4%。在更具挑战性的ARC-AGI 2测试中,URM的16.0%正确率几乎是HRM的三倍,是TRM的两倍多。

这些对比不仅体现在单次尝试的正确率上,当允许模型进行多次尝试时,URM的优势更加明显。比如在ARC-AGI 1测试中,当允许1000次尝试时,URM的成功率能达到85.1%,而TRM和HRM分别只有64.4%和60.5%。这说明URM不仅在首次尝试时表现优异,而且具有更强的"举一反三"能力,能够通过多样化的尝试找到正确答案。

七、技术实现的精妙之处

URM的技术架构虽然听起来复杂,但核心思想相当直观。整个系统可以想象成一个既有固定流程又有循环改进的智能工厂。固定流程部分负责基础的信息处理,就像流水线上的标准操作。而循环改进部分则像是质检环节,会反复检查和优化产品质量。

在循环处理的每一轮中,模型都会运用注意力机制来重新审视问题的各个方面,然后通过包含短卷积的前馈网络来细化理解。这个过程会重复多次,每一次都在前一次的基础上进一步改进。最终,模型会运用自适应计算时间机制,根据问题的复杂程度自动决定需要多少轮循环处理。

短卷积模块的加入特别巧妙。它不是简单地增加模型复杂度,而是专门针对相邻信息的关系建模。研究团队通过仔细实验发现,将这个模块放在前馈网络的特定位置效果最佳,这就像在合适的时机加入合适的调料,能够显著提升整道菜的味道。

八、实际应用的广阔前景

虽然URM目前主要在学术测试中展现优势,但它的核心技术具有广阔的应用前景。循环推理机制可以应用于任何需要多步骤逻辑分析的场景,比如医疗诊断、法律推理、工程设计等领域。

在医疗诊断中,医生通常需要综合考虑患者的各种症状、检查结果和病史信息,然后反复推理得出诊断结论。URM的循环推理能力可以帮助AI系统模拟这种诊断过程,提高诊断的准确性和可靠性。

在工程设计领域,设计师经常需要在多个约束条件之间寻找平衡,反复调整设计方案直到满足所有要求。URM的这种反复优化机制正好契合这类需求,可以帮助自动化设计系统生成更优的解决方案。

研究团队特别强调,URM的优势不仅在于最终性能,还在于其参数效率。相比需要巨大参数量的大型语言模型,URM用相对较少的参数就能实现强大的推理能力,这使得它更适合在资源受限的环境中部署,比如移动设备或边缘计算场景。

归根结底,这项研究揭示了一个重要原理:在人工智能的推理任务中,"如何思考"比"知道多少"可能更加重要。URM通过模拟人类的循环思考过程,在复杂推理任务上取得了显著突破。虽然目前的测试成绩距离人类水平还有差距,但这种方法为AI推理能力的进一步提升指明了明确方向。

更重要的是,这项研究证明了一个令人鼓舞的观点:我们不一定需要更大、更复杂的模型来提升AI的智能水平,而是需要更好地理解和模拟人类思维的本质特征。当AI学会了像人类一样反复思考、注重细节、适度放松时,它就能在复杂推理任务中展现出接近甚至超越人类的能力。这为未来AI技术的发展提供了全新的思路和可能性,也让我们对真正智能的人工智能充满期待。

Q&A

Q1:通用推理模型URM与传统AI模型有什么区别?

A:URM最大的特点是采用循环思考机制,就像人类解难题时会反复思考一样。传统AI模型更像流水线,信息只处理一遍就输出结果,而URM会对同一个问题进行多轮循环处理,每一轮都能让答案更精确。这种设计让URM在复杂推理任务上表现更好,用更少的参数就能达到更高的准确率。

Q2:URM在ARC-AGI测试中的53.8%正确率意味着什么?

A:ARC-AGI被认为是目前最具挑战性的AI推理测试,连很多聪明的人类都觉得困难。URM在ARC-AGI 1中达到53.8%的正确率,远超其他先进模型,这表明它具备了接近人类水平的抽象推理能力。更重要的是,当允许多次尝试时,URM的成功率能达到85%以上,显示出强大的问题解决潜力。

Q3:URM技术能应用到哪些实际场景中?

A:URM的循环推理机制可以应用于任何需要多步骤逻辑分析的领域。比如医疗诊断中,可以帮助AI模拟医生反复分析症状的过程;在工程设计中,可以帮助系统在多个约束条件间寻找最优解;在法律推理中,可以辅助分析复杂案例。由于URM参数效率高,还特别适合在手机等移动设备上部署。

来源:https://www.163.com/dy/article/KH8IKGSD0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中国市场连续6季度盈利!通用汽车晒财报:一季度净赚2980亿
科技数码
中国市场连续6季度盈利!通用汽车晒财报:一季度净赚2980亿

通用汽车2026年Q1财报:全球业绩强劲,中国市场连续6季度盈利 4月29日,通用汽车正式交出了2026年第一季度的成绩单。这份财报用数据说话:全球业绩表现强劲,多项核心指标超出了市场此前的预期。尤其值得一提的是中国市场,已经实现了连续6个季度的盈利,稳稳地成为了其全球业务版图中重要的增长支柱。 具

热心网友
04.29
通用技术集团发布四大战略行动计划,形成全维发展布局
科技数码
通用技术集团发布四大战略行动计划,形成全维发展布局

3月18日,通用技术集团机床产业生态合作伙伴大会在北京国家会议中心举行 春日的北京,一场关乎中国工业未来的盛会拉开帷幕。通用技术集团机床产业生态合作伙伴大会在国家会议中心举行,近500位产业链上下游的企业代表与行业专家齐聚一堂。会上,通用技术集团总工程师、机床公司董事长周舟发布了集团机床产业的未来发

热心网友
04.17
通用汽车第一季度在华零售销量约35万辆
编程语言
通用汽车第一季度在华零售销量约35万辆

网易汽车4月3日报道今年第一季度,通用汽车在华零售销量约35万辆,其中各品牌新车型表现稳健。面对激烈竞争的中国汽车市场,通用汽车持续强化旗下产品组合,推动合资企业开展全方位创新升级。随着多款全新及改

热心网友
04.07
获京基智农控股后,汇博机器人加速具身智能从轻量到重型全谱系产品落地
科技数码
获京基智农控股后,汇博机器人加速具身智能从轻量到重型全谱系产品落地

来源:环球网【环球网科技综合报道】据36氪研究院预测,2026年中国具身智能产业将迎来两大里程碑:市场规模正式突破万亿元大关,人形机器人出货量有望冲击十万台量级,行业正式从技术探索期迈入规模化落地的

热心网友
04.07
上海人形机器人产业新阶段:玩具到生产力的智能制造转型
科技数码
上海人形机器人产业新阶段:玩具到生产力的智能制造转型

在新一轮人工智能浪潮中,全球人形机器人产业正经历从“技术验证”迈向“规模化商用部署”的新阶段。全球出货量第一、来自上海的人形机器人企业——智元机器人,今日正式下线第一万台通用具身机器人。这距离它实现

热心网友
03.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验
AI
英特尔酷睿Ultra游戏本性能解析:AI加持下的全新体验

根据Gartner最新市场报告,2025年全球PC出货量突破2 7亿台,同比增长9 1%。在人工智能技术浪潮与AI PC算力升级需求的双重驱动下,整个PC行业正迈入一个全新的增长周期。作为细分市场的重要力量,游戏笔记本电脑也迎来了关乎性能、体验与场景定义的关键换代节点。 回顾行业发展,英特尔于202

热心网友
05.15
TUSD稳定币详解:TrueUSD项目背景、主要用途与投资风险全解析
web3.0
TUSD稳定币详解:TrueUSD项目背景、主要用途与投资风险全解析

TUSD是一种与美元1:1锚定的合规稳定币,由TrustToken团队推出。它通过第三方机构定期审计和银行账户托管确保透明度,旨在提供可靠的数字美元解决方案。其用途涵盖交易、支付、DeFi及跨境结算,但用户仍需关注其中心化托管、监管变化及智能合约安全等潜在风险。

热心网友
05.15
OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更
AI
OpenClaw Peekaboo v3发布:机器人视觉抓取技术实现一日三更

OpenClaw 生态中那个关键的“眼睛”和“手”——Peekaboo v3,正式回归了。这不仅是一次版本更新,更像是一次关键的“补完”。它让 AI 不再只是停留在聊天框里给出建议,而是真正获得了观察屏幕、点击按钮、操作真实桌面的能力。 过去几个月,OpenClaw 的热度经历了一个典型的周期:从概

热心网友
05.15
微信小程序找个球全关卡通关攻略图文详解
游戏攻略
微信小程序找个球全关卡通关攻略图文详解

微信小游戏《找个球》,玩的就是眼力。每张看似相同的图片里,都藏着好几处“破绽”——有的明显,有的则隐蔽得让人抓狂。从简单的卧室场景,到复杂的宴会、雨夜,关卡越往后,画面细节越多,挑战也越大。想通关?秘诀就一个:沉住气,从左到右,一寸一寸地对比。 为了方便大家攻克难关,这里整理了一份全关卡通关攻略图合

热心网友
05.15
找个球第10关怎么过 图文通关步骤详解
游戏攻略
找个球第10关怎么过 图文通关步骤详解

《找个球》第10关攻略详解:如何快速找出15处不同?本关场景围绕经典角色“嬛嬛”与“大胖橘”展开,挑战在于发现两幅图片间的细微差别。这些差异点主要隐藏在人物的发饰造型、衣领褶皱、服饰花纹等细节处。同时,背景中的花草形态、秋千绳索乃至庭院摆设也可能存在巧妙改动。想要高效通关,建议玩家采用分区对比法,先

热心网友
05.15