游乐游手机版
首页/科技数码/文章详情

哥大研究:AI数学推理诊断新法,频率动态检测是关键

时间:2025-12-06 10:53
哥伦比亚大学计算机科学团队近日提出了一项突破性的AI数学能力评估方法,通过模拟动态数学场景对语言模型进行全面体检。这项名为MathBode的研究颠覆了传统 "对错二分法 "的评估模式,转而关注AI在参数

近日,哥伦比亚大学计算机科学团队研发出一种突破性的AI数学能力评估方法,通过模拟动态数学场景对语言模型进行全面测评。这项名为MathBode的研究颠覆了传统"对错二分法"的评估模式,转而关注AI在参数连续变化中的响应特征,为理解大型语言模型的数学推理机制开辟了新思路。

该研究的核心创新在于将工程领域的波特图分析技术引入AI评估。研究人员设计了一套动态测试框架,让数学题目中的关键参数(如线性方程系数)按照正弦波规律周期性变化,形成类似音乐节奏的测试信号。通过分析AI输出结果与理想响应之间的幅度比(增益)和时间差(相位),系统能够精准捕捉模型在处理动态问题时的能力缺陷。

实验选取代数、几何、金融计算等五大类数学问题作为测试基准。结果显示,所有被测模型均表现出显著的"低通特性":当参数变化频率低于临界值时,模型能保持较高准确率;但超过特定阈值后,响应质量急剧下降,出现幅值失真相位滞后。这种特性被形象地比喻为AI的"数学听力障碍"——能够清晰处理缓慢变化的问题,但对快速变动的参数却"充耳不闻"。

在具体测试中,线性方程求解和复利计算问题暴露出最明显的动态缺陷。当驱动频率提升至每秒8个周期时,多数模型的增益值从接近1骤降至0.6以下,相位延迟超过30度。这意味着AI需要更长时间处理高频变化,且计算结果会出现系统性偏差。相比之下,相似三角形比例计算问题因具有比例不变性,成为唯一不受频率影响的测试项,验证了评估体系的有效性。

研究团队开发的两套评分系统MB-Core和MB-Plus,将动态响应特征量化为具体指标。前者聚焦中频段(4-8周期)表现,后者则增加非线性失真等惩罚项。测试显示,DeepSeek+V3.1以0.834(MB-Core)和0.656(MB-Plus)的双料高分领先,但在不同数学家族中仍存在专业化差异。例如该模型在复利计算中表现最优,而线性方程组求解能力则弱于Qwen3+235B。

技术实现层面,研究采用64时间步长的测试周期和指数分布的频率序列(1-16周期),通过多相位起始测试确保结果的可靠性。严格的输出格式要求(六位小数定点数)和确定性解码设置(温度参数=0),保障了测试的可重复性。傅里叶分析技术将复杂的时间序列简化为增益和相位两个关键参数,使不同模型的比较成为可能。

动态测试揭示了传统评估的重大局限。某些在静态测试中准确率相当的模型,在连续变化场景下表现出截然不同的动态特性:有的能紧密跟随参数变化,有的则出现震荡发散。这种差异在金融建模、工程优化等需要实时计算的场景中具有关键意义。研究还发现,多数模型的残差自相关函数在高频时呈现负值,表明误差存在交替过冲和欠冲的系统性模式。

该方法对AI部署策略产生重要影响。对于市场参数频繁变动的金融应用,应优先选择低频段增益高、相位延迟小的模型;涉及多变量耦合的工程问题,则需重点考察线性方程组的动态稳定性。研究同时指出,当前Transformer架构在处理高频数学变化时存在根本性限制,这可能与注意力机制的计算精度和深度网络的信息传播延迟有关。

技术实现包含多项精妙设计:64时间步长平衡了计算复杂度与特征捕获能力;五档指数分布频率覆盖从极低频到相对高频的范围;三相位起始测试验证结果鲁棒性。严格的数值解析规则确保测试一致性,而开源的数据集和代码为后续研究奠定了基础。

这项研究不仅提供了新的评估工具,更改变了AI能力认知的维度。就像医学检查从静态指标转向动态监测,AI评估也需要观察系统在变化中的适应性。MathBode方法为开发更稳定、更可靠的AI数学推理系统指明了方向,其应用前景覆盖模型开发、场景适配、教育评估等多个领域。

来源:https://www.itbear.com.cn/html/2025-10/994729.html
上一篇iOS16.1测试版4发布:锁屏相机与液体横屏新功能体验 下一篇一加15首发两大充电黑科技,续航性能双突破
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
美团骑手关怀大篷车活动已覆盖50城
科技数码 · 2026-05-30

美团骑手关怀大篷车活动已覆盖50城

美团启动2026年“清凉关怀季”,“骑手关怀大篷车”从上海出发,三个月内覆盖全国50多座城市,提供防暑物资、社保政策宣导、大病关怀咨询及反馈通道,预计惠及超百万人次骑手,旨在搭建长期保障机制。

雷军舒淇出席YU7 GT交付仪式并共享小米冰淇淋
科技数码 · 2026-05-30

雷军舒淇出席YU7 GT交付仪式并共享小米冰淇淋

小米YU7GT首交仪式上,雷军与舒淇共同为6位车主交付5台车厘子红配色的新车。仪式后雷军陪同舒淇参观工厂并讲解车型设计,还邀请其品尝小米冰淇淋。该冰淇淋分为标准版5 99元、Pro版6 99元、Max版8 99元,开售3天卖出2000多只,因供不应求导致机器故障。

小米YU7月销跌破万台,产品矩阵待完善,雷军55万目标承压
科技数码 · 2026-05-30

小米YU7月销跌破万台,产品矩阵待完善,雷军55万目标承压

目前,小米YU7GT交付周期大幅缩短,前四月累计销量约十一万七千五百辆,仅完成全年五十五万辆目标的百分之二十一。当前仅售YU7和SU7两款,产品矩阵尚不完善,后续月均需达五万四千辆才能达标,挑战非常严峻。

雷军舒淇同台亮相 小米YU7 GT高性能SUV开启长途旅行新体验
科技数码 · 2026-05-30

雷军舒淇同台亮相 小米YU7 GT高性能SUV开启长途旅行新体验

雷军与舒淇携手共同出席小米YU7GT首批车主交付仪式现场。该车定位长途高性能SUV,最大马力达1003匹,最高时速300公里,CLTC综合续航705公里,提供5款车身颜色,面向时代精英用户。雷军亲自为首批车主交付钥匙,现场气氛热烈。

小米YU7 GT交付现场舒淇车主亮相透露想考驾照
科技数码 · 2026-05-30

小米YU7 GT交付现场舒淇车主亮相透露想考驾照

小米YU7GT首批交付,舒淇以车主身份亮相,为6位幸运车主送上签名海报与泰戈尔诗集。舒淇本人已订购SU7Max但未提车,目前无驾照,体验后表示想考驾照。她称赞YU7外观流畅、空间舒适、智能系统便捷,并高度评价小米工厂如同未来世界。