游乐游手机版
首页/科技数码/文章详情

哥大研究:AI数学推理诊断新法,频率动态检测是关键

时间:2025-12-06 10:53
哥伦比亚大学计算机科学团队近日提出了一项突破性的AI数学能力评估方法,通过模拟动态数学场景对语言模型进行全面体检。这项名为MathBode的研究颠覆了传统 "对错二分法 "的评估模式,转而关注AI在参数

近日,哥伦比亚大学计算机科学团队研发出一种突破性的AI数学能力评估方法,通过模拟动态数学场景对语言模型进行全面测评。这项名为MathBode的研究颠覆了传统"对错二分法"的评估模式,转而关注AI在参数连续变化中的响应特征,为理解大型语言模型的数学推理机制开辟了新思路。

该研究的核心创新在于将工程领域的波特图分析技术引入AI评估。研究人员设计了一套动态测试框架,让数学题目中的关键参数(如线性方程系数)按照正弦波规律周期性变化,形成类似音乐节奏的测试信号。通过分析AI输出结果与理想响应之间的幅度比(增益)和时间差(相位),系统能够精准捕捉模型在处理动态问题时的能力缺陷。

实验选取代数、几何、金融计算等五大类数学问题作为测试基准。结果显示,所有被测模型均表现出显著的"低通特性":当参数变化频率低于临界值时,模型能保持较高准确率;但超过特定阈值后,响应质量急剧下降,出现幅值失真相位滞后。这种特性被形象地比喻为AI的"数学听力障碍"——能够清晰处理缓慢变化的问题,但对快速变动的参数却"充耳不闻"。

在具体测试中,线性方程求解和复利计算问题暴露出最明显的动态缺陷。当驱动频率提升至每秒8个周期时,多数模型的增益值从接近1骤降至0.6以下,相位延迟超过30度。这意味着AI需要更长时间处理高频变化,且计算结果会出现系统性偏差。相比之下,相似三角形比例计算问题因具有比例不变性,成为唯一不受频率影响的测试项,验证了评估体系的有效性。

研究团队开发的两套评分系统MB-Core和MB-Plus,将动态响应特征量化为具体指标。前者聚焦中频段(4-8周期)表现,后者则增加非线性失真等惩罚项。测试显示,DeepSeek+V3.1以0.834(MB-Core)和0.656(MB-Plus)的双料高分领先,但在不同数学家族中仍存在专业化差异。例如该模型在复利计算中表现最优,而线性方程组求解能力则弱于Qwen3+235B。

技术实现层面,研究采用64时间步长的测试周期和指数分布的频率序列(1-16周期),通过多相位起始测试确保结果的可靠性。严格的输出格式要求(六位小数定点数)和确定性解码设置(温度参数=0),保障了测试的可重复性。傅里叶分析技术将复杂的时间序列简化为增益和相位两个关键参数,使不同模型的比较成为可能。

动态测试揭示了传统评估的重大局限。某些在静态测试中准确率相当的模型,在连续变化场景下表现出截然不同的动态特性:有的能紧密跟随参数变化,有的则出现震荡发散。这种差异在金融建模、工程优化等需要实时计算的场景中具有关键意义。研究还发现,多数模型的残差自相关函数在高频时呈现负值,表明误差存在交替过冲和欠冲的系统性模式。

该方法对AI部署策略产生重要影响。对于市场参数频繁变动的金融应用,应优先选择低频段增益高、相位延迟小的模型;涉及多变量耦合的工程问题,则需重点考察线性方程组的动态稳定性。研究同时指出,当前Transformer架构在处理高频数学变化时存在根本性限制,这可能与注意力机制的计算精度和深度网络的信息传播延迟有关。

技术实现包含多项精妙设计:64时间步长平衡了计算复杂度与特征捕获能力;五档指数分布频率覆盖从极低频到相对高频的范围;三相位起始测试验证结果鲁棒性。严格的数值解析规则确保测试一致性,而开源的数据集和代码为后续研究奠定了基础。

这项研究不仅提供了新的评估工具,更改变了AI能力认知的维度。就像医学检查从静态指标转向动态监测,AI评估也需要观察系统在变化中的适应性。MathBode方法为开发更稳定、更可靠的AI数学推理系统指明了方向,其应用前景覆盖模型开发、场景适配、教育评估等多个领域。

来源:https://www.itbear.com.cn/html/2025-10/994729.html
上一篇iOS16.1测试版4发布:锁屏相机与液体横屏新功能体验 下一篇一加15首发两大充电黑科技,续航性能双突破
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5