斯坦福与英伟达联合发布AI推理新范式，刷新多领域SOTA_游乐网

文章

业界资讯单机攻略视频攻略新游看台八卦新闻手游资讯手游攻略游戏问答

游戏

全部角色扮演棋牌策略休闲益智赛车竞速飞行射击体育竞技模拟经营动作冒险卡牌桌游其他游戏应用辅助

首页游戏软件资讯排行榜专题

首页

AI

斯坦福与英伟达联合发布AI推理新范式，刷新多领域SOTA

斯坦福与英伟达联合发布AI推理新范式，刷新多领域SOTA

热心网友

72

转载

2026-01-25

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新智元报道

编辑：艾伦

【新智元导读】斯坦福与英伟达联合发布重磅论文 TTT-Discover，打破「模型训练完即定型」的铁律。它让 AI 在推理阶段针对特定难题「现场长脑子」，不惜花费数百美元算力，只为求得一次打破纪录的极值。从重写数学猜想到碾压人类代码速度，这种「激进进化」正在重新定义机器发现的边界。

如果把现在的 AI 模型比作一个学霸，它们的工作方式通常是这样的：在学校（预训练阶段）读万卷书，把知识固化在脑子里（参数冻结）。

等到考试（推理阶段）时，它们靠的是「回忆」和「逻辑推演」来答题。

即便像 OpenAI 的 o1 这种「会思考」的模型，也只是在考场上多打了打草稿（CoT思维链），它的大脑回路（权重）依然是锁死的。

但就在本周，一篇名为《Learning to Discover at Test Time》的论文横空出世，来自斯坦福大学和英伟达的研究团队提出了一种不仅「打草稿」，而且敢在考场上「现场长脑子」的新范式——TTT-Discover（Test-Time Training，测试时训练）。

这是对「智能」定义的再一次挑战。

核心颠覆

这项研究的核心逻辑非常反直觉：它不追求「平均分」，它只想要那一次「满分」。

在传统的强化学习中，我们希望训练出一个「全能选手」，不仅能做对这道题，以后遇到类似的题也能做对。

但 TTT-Discover 说：不，科学发现（Discovery）不需要「通用」。

比如我们要寻找一种能治愈癌症的新分子，或者要找出一个数学猜想的反例。

只要我们找到了这一个答案，哪怕模型在这个过程中严重「偏科」，甚至为了这道题把自己练废了（过拟合），把其他所有题都做错了，又有什么关系呢？

只要那个答案是对的，人类就赢了。

基于这个理念，TTT-Discover 采用了一种极其激进的策略：

现场进化：在推理阶段，针对当前的特定问题，利用强化学习直接修改模型的参数。

赌徒心态：它修改了损失函数，不再追求「稳健」，而是鼓励模型去探索那些极端的、风险极高但回报可能巨大的区域。

用完即弃：这个针对特定问题进化出来的「特种兵」模型，解完题就可以丢掉了。

战绩：它真的比人类聪明吗？

「不看广告看疗效」。

这篇论文最硬核的地方，在于它挑选的对手——全是硬骨头。

1. 数学界的「毫厘之争」

在著名的Erdős 最小重叠问题（一个困扰数学家数十年的数论难题）上，人类和此前最强 AI（AlphaEvolve）的竞争已经卷到了小数点后几位。TTT-Discover 进场后，直接把上界从 0.380924 压低到了0.380876。

别小看这小数点后四位的变化，在理论数学的无人区，每推进一步都是在重写历史。

它构造出了一个极其复杂的、拥有 600 个分段的非对称函数，而之前的人类最佳构造只有 51 段。

这就像是人类还在用积木搭房子，AI 已经开始用 3D 打印构建复杂的非对称建筑了。

2. 碾压人类顶级程序员

在 GPU 内核优化（TriMul）比赛中，任务是写出运行速度最快的底层代码。

这是极度考验工程师对硬件理解能力的领域。

人类第一名的代码在 H100 显卡上运行耗时：1371 微秒。

TTT-Discover 写出的代码耗时：1161 微秒。

在 A100 显卡上更夸张，它比人类第一名快了整整50%。

这意味着，在未来，你玩的游戏、跑的大模型，仅仅因为底层代码被这种 AI 重写了一遍，性能就能凭空提升一倍。

它发现了一些人类工程师完全没想到的「骚操作」，比如极其激进的算子融合和精度压缩。

3. 算法竞赛的降维打击

在著名的 AtCoder 启发式竞赛（ahc039, ahc058）中，它不仅击败了之前最强的 AI 智能体，还超越了人类金牌选手的历史最佳成绩。

如果当时它参赛，它就是当之无愧的第一名。

冷静一下，它不是万能神药

虽然战绩辉煌，但作为一篇严谨的科普，必须指出它的「阿喀琉斯之踵」。

第一，它是真的「贵」。

传统的 AI 回答一个问题可能只需要几分钱的算力。

而 TTT-Discover 为了解决一个问题，需要在测试时进行几千次甚至上万次的采样和训练。

论文坦承，解决单道题的成本约为500 美元（约合人民币 3500 元）。

用来做小学奥数题？疯了。

用来设计下一代光刻机指令？便宜得像不要钱。

第二，它是个「偏科生」。

你不能指望用这个进化后的模型去和你聊天。

因为它在解决那道数学题时，可能已经把「如何说你好」这部分的脑细胞都改写成了「如何计算微积分」。

它是为了单点突破而生的一次性工具。

第三，它需要「打分器」。

这是最关键的局限。

它目前只能解决那些「好坏显而易见」的问题（有连续奖励信号），比如代码运行速度（越快越好）、数学边界（越小越好）。

对于「写一首感人的诗」或者「证明黎曼猜想」（通常只有对 / 错两种状态）这类问题，它目前还无能为力。

作者简介

来源:https://www.163.com/dy/article/KK54MUS10511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：深入Redis：手写底层代码的核心原理与实战解析下一篇：AI头像与约稿如何选？五大平台实测对比性价比

相关攻略

AI预测市场崛起：黑马模型胜率如何超越人类

AI

AI预测市场崛起：黑马模型胜率如何超越人类

新智元报道编辑：Aeneas【新智元导读】大模型能否预测未来？UniPat AI构建了一套完整的预测智能基础设施，Echo，包含动态评测引擎、面向未来事件的训练范式和预测专用模型EchoZ-1 0。

热心网友

03.30

沃顿商学院研究：AI如何重塑人类推理与判断机制

科技数码

沃顿商学院研究：AI如何重塑人类推理与判断机制

IT之家 3 月 28 日消息，当地时间 3 月 27 日，据《福布斯》报道，美国宾夕法尼亚大学沃顿商学院最新研究显示，使用 AI 规划旅行、咨询医疗建议或撰写求职信，看似只是节省时间，实际上可能正

热心网友

03.29

龙虾、Token是什么？6位AI大咖为你深度解析

科技数码

龙虾、Token是什么？6位AI大咖为你深度解析

来源：人民日报客户端走红的“龙虾”（OpenClaw）打开了智能体的想象空间；巨量的词元（Token）反映着AI产业规模快速扩张……3月27日，在2026中关村论坛人工智能主题日，月之暗面创始人杨植

热心网友

03.28

龙虾之后的大模型共识困境与未来趋势

科技数码

龙虾之后的大模型共识困境与未来趋势

出品｜虎嗅科技组作者｜宋思杭编辑｜苗正卿头图｜中关村论坛现场上一次智谱AI与月之暗面同台，还是在1月10日。那天是智谱通过港交所聆讯后的第三天，一个周六，在中关村国际创新中心举行了一场名为AGI-N

热心网友

03.28

阿里林俊离职首文：AI迈向智能体式思考新阶段

科技数码

阿里林俊离职首文：AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。编译整理｜莘歆来源 | 盒饭财经（ID：daxiongfan）头图及封面来源 | 网络及即梦制作在X（推特）上宣布离职后的22天，林俊旸发了一篇长文。3月2

热心网友

03.27

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全 2025-08-05

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全 2025-08-05

最新APP

史莱姆农场

史莱姆农场

休闲益智 03-31

凡人传说

凡人传说

角色扮演 03-30

恶魔秘境

恶魔秘境

角色扮演 03-29

猫和老鼠华为

猫和老鼠华为

休闲益智 03-29

暗黑之地

暗黑之地

角色扮演 03-28

热门推荐

Pixel 10 Pro过热致硬件损坏？用户实测长时间开手电筒风险

网络安全

Pixel 10 Pro过热致硬件损坏？用户实测长时间开手电筒风险

IT之家 3 月 31 日消息，手机手电筒是一项用户常用的功能，无论是在漆黑的衣柜里翻找物品，还是夜间在停车场辨路前行，需要时它总能随时派上用场。但如今，部分 Pixel 10 Pro 用户反馈：如

热心网友

03.31

Numbers判断闰年公式设置方法：详解步骤与实用技巧

电脑教程

Numbers判断闰年公式设置方法：详解步骤与实用技巧

闰年判定有四种Numbers兼容公式：一、MOD嵌套OR+AND逻辑；二、DATE+DAY反推2月最后一天；三、TEXT+ISERROR验证“年份-02-29”有效性；四、YEAR

热心网友

03.31

三星Hearapy应用免费上架：百赫兹音疗缓解晕车症状

科技数码

三星Hearapy应用免费上架：百赫兹音疗缓解晕车症状

IT之家 3 月 31 日消息，对很多人来说，晕车晕船是旅行中最常见的烦心事之一。三星悄然上线了一款名为 Hearapy 的免费应用，来解决这一令人不适的问题。该公司称，这款应用无需药物或物理缓解手

热心网友

03.31

湖南电信与海光信息深化合作，共筑算网融合与AI新生态

科技数码

湖南电信与海光信息深化合作，共筑算网融合与AI新生态

据海光信息（688041 SH）消息，近日，中国电信（601728 SH）湖南分公司2026年数智科技生态大会在长沙召开，中国电信湖南分公司与海光信息全面深化数智生态合作。根据协议，双方将聚焦智能制

热心网友

03.31

高端纯电困局，车企如何破解盈利难题

科技数码

高端纯电困局，车企如何破解盈利难题

30万元以上的高端纯电车，显然成了新能源车市的那块硬骨头。除了有换电加持的蔚来新ES8，大量被车企寄予厚望的高端明星纯电车都难逃疲软命运，典型如理想MEGA和i8，一次起火事故，直接造成销量断崖式下

热心网友

03.31