游乐游手机版
首页/AI教程/文章详情

谷歌8月论文揭示o1原理,大模型软件无护城河

时间:2026-07-03 15:33
有网友因此发出感慨:就在不久前,OpenAI 将 o1-mini 的推理速度提升了 7 倍,每日可用额度达到 50 条;而 o1-preview 则调整为每周 50 条。计算量可节省 4 倍谷歌 DeepMind 的这篇论文标题直击要害:优化大语言模型在测试时的计算资源,比单纯扩大模型参数量更高效。

有网友因此发出感慨:

就在不久前,OpenAI 将 o1-mini 的推理速度提升了 7 倍,每日可用额度达到 50 条;而 o1-preview 则调整为每周 50 条。

计算量可节省 4 倍

谷歌 DeepMind 的这篇论文标题直击要害:优化大语言模型在测试时的计算资源,比单纯扩大模型参数量更高效。

这一思路颇具启发性。人类在应对复杂问题时,往往会投入更多思考时间以做出更优决策,那么大语言模型是否也能采用类似策略?换言之,面对一项复杂任务,能否让 LLM 在测试阶段更充分地利用额外计算资源,从而提升答案的准确性?

此前已有研究证实这一方向可行,但实际效果较为有限。因此,本次研究旨在探明:仅动用少量额外推理计算,模型性能究竟能提升到什么程度?

研究团队设计了一系列实验,使用 PaLM2-S* 在 MATH 数据集上进行了完整测试。重点分析了两种方法:一是迭代式自我修正——让模型对同一问题多次尝试作答,并在每次尝试后自动修正,逐步逼近正确答案;二是搜索方法——模型先生成多个候选答案,再从中筛选出最优解。

从结果来看,采用自我修正方法时,随着测试阶段计算量的增加,标准最佳 N 策略(Best-of-N)与计算最优扩展策略之间的差距逐步扩大。而在搜索方法下,计算最优扩展策略在初期优势显著,并且在一定条件下,能够以仅相当于最佳 N 策略四分之一的计算量,达到相同的效果。

接下来,团队还进行了 FLOPs 匹配评估:将采用计算最优策略的 PaLM 2-S* 与一个规模大 14 倍的预训练模型(不施加额外推理)进行对比。结果发现,使用自我修正方法时,当推理 token 数量远小于预训练 token 数量,测试时计算策略的效果优于单纯预训练。但随着这一比例增加或问题难度上升,预训练的优势又重新显现。

简而言之,问题难度才是决定不同测试时计算扩展方法能否奏效的关键因素。

研究进一步比较了多种 PRM 搜索方法,结果显示,前向搜索(图中最右侧)所需的计算资源最大。

在计算资源相对匮乏的情况下,采用计算最优策略最多可节省 4 倍的资源投入。

与 OpenAI 的 o1 模型进行对比,这篇研究得出的结论几乎完全吻合。o1 模型学会了不断优化自身的思考链条,尝试不同的策略,并识别自己的错误。而且,随着强化学习程度(训练时计算)和思考时间(测试时计算)的持续增加,o1 的性能也稳步提升。唯一的区别在于,OpenAI 抢先发布了模型,而谷歌这边使用的是 PaLM2,在 Gemini2 上尚未推出更新版本。

网友:护城河只剩硬件了?

这一新发现不禁让人回想起去年谷歌内部文件中提出的观点:各家研究进展都很快,没有人能确保自己始终领先。唯一的护城河,或许就只剩下硬件了。

(所以马斯克在疯狂建设算力中心?)

有网友表示,如今英伟达直接掌控着谁能够拥有更多算力。但如果谷歌或微软开发出性能更强的定制芯片,局势又将如何演变?

值得一提的是,近期 OpenAI 首颗芯片曝光,将采用台积电最先进的 A16 埃米级工艺,专为 Sora 视频应用打造。显然,大模型这场竞赛,单靠卷模型本身已经远远不够了。

来源:https://www.aiagiai.com/3809.html
上一篇群体智能从自动驾驶到机器人开启AI新篇章 下一篇美国太空数据中心成本骤降95%获英伟达强力支持
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude Token节省十大实用技巧方案
AI教程 · 2026-07-04

Claude Token节省十大实用技巧方案

通过编辑而非追加消息、每15-20条消息开新对话、合并问题、利用Projects缓存、预设记忆、关闭附加功能、按任务选择模型、分散时段、避开高峰及开启超额使用,能有效减少上下文重读,节省Token。

硅基流动冲刺Token工厂第一股亏损反更值钱?
AI教程 · 2026-07-04

硅基流动冲刺Token工厂第一股亏损反更值钱?

硅基流动冲刺港交所“Token工厂第一股”,2025年营收5533万元,净亏损3 45亿元,毛利率-24%。两条业务线分化:公有云服务亏损严重,本地部署毛利率达82 5%。依赖中立第三方定位吸引资本,但面临原厂降价、大厂竞争及供应链风险,估值77亿背后存隐忧。

AI Agent的真正价值在于长在业务流程中
AI教程 · 2026-07-04

AI Agent的真正价值在于长在业务流程中

AIAgent需嵌入企业业务流程,而非仅作聊天工具。以零售品类管理为例,通过趋势识别、选品与货架规划,预计可带来2%—5%销售提升及10%P&L改善。设计需模块化、可整合,确保可解释性,重新界定人、AI与工具的关系。

后张雪峰时代大厂抢滩AI志愿填报
AI教程 · 2026-07-04

后张雪峰时代大厂抢滩AI志愿填报

AI高考志愿填报工具在大厂推动下普及,能快速整合信息、生成方案,但存在数据幻觉、同质化风险。它无法替代张雪峰式实用主义建议和信誉责任,志愿填报仍需个性化判断与深度信息。

阿里禁用Anthropic全系产品的理性风控决策
AI教程 · 2026-07-04

阿里禁用Anthropic全系产品的理性风控决策

阿里自7月10日起全员禁用Anthropic全系产品,因其ClaudeCode被发现存在隐蔽身份识别与隐写标记机制,且Anthropic曾指控阿里进行模型蒸馏。此举源于安全信任崩塌、中美AI博弈加剧,阿里同步换装自研工具Qoder,推动国产AI编码工具替代。