游乐游手机版
首页/AI热点日报/热点详情

OpenAI研究:延长推理时间可防攻击,DeepSeek同样受益

类型:热点整理2026-06-29
一个关键发现:OpenAI 提出的最新 Scaling Law,其实际价值又提升了一个台阶。 简而言之,对于 o1 这类推理模型而言,它的思考时间越长,就越能有效抵御恶意攻击。换句话说,只要增加推理阶段的计算量,就能直接增强模型面对对抗攻击时的稳健性。 随着大语言模型越来越多地被赋予 Agent 能

一个关键发现:OpenAI 提出的最新 Scaling Law,其实际价值又提升了一个台阶。

简而言之,对于 o1 这类推理模型而言,它的思考时间越长,就越能有效抵御恶意攻击。换句话说,只要增加推理阶段的计算量,就能直接增强模型面对对抗攻击时的稳健性。

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

随着大语言模型越来越多地被赋予 Agent 能力,以执行现实世界中的各种任务,模型遭受对抗攻击的风险也与日俱增。尤其是在 OpenAI 官方 Agent“Operator”即将发布之际,选择在这一时机公开这项研究,多少带有让外界放心的意味。

目前主流的防御手段是“对抗性训练”,但其局限性同样明显:一方面高度依赖先验知识,需要预先知晓攻击者的策略;另一方面需要付出“安全税”,在模型稳健性和能力之间艰难取舍,常常顾此失彼。

OpenAI 的实验结果颇为有趣:即便完全不进行对抗性训练,仅仅增加推理阶段的计算量,模型的抗攻击能力也能获得大幅提升。这一结论在多个任务上都得到了验证。

这项新研究的共同一作中,包含了 OpenAI 仅剩的联合创始人之一 Wojciech Zaremba。另一位共同一作 Boaz Barak 则表示:“我们并没有‘解决’对抗稳健性问题……但对于未来的方向感到兴奋。”

针对推理模型的新一轮攻防

针对推理模型的独特特性,研究团队在实验中考察了多种“攻击面”:

  • Many-shot 攻击:攻击者会在提示中嵌入大量上下文示例,攻击强度由所提供的 token 数量来衡量。
  • Soft token 攻击:攻击者可以直接操控 embedding 向量,通过梯度下降优化 token 来达成对抗目的。这是一种很强的白盒攻击,但在现实场景中并不常见。
  • Think less 攻击(想太少):一种新颖的攻击方式,旨在减少模型的推理计算量,从而增加其出错的概率。
  • Nerd-sniping 攻击(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的环节上耗费算力时,反而更容易受到攻击。
  • 人类/AI 红队攻击:邀请专家或 AI 组建红队,通过人机交互,有针对性地探索潜在的提示注入漏洞。
  • 多模态输入对抗攻击:针对图像分类任务,使用特定的对抗性图像数据集发起攻击。

在大多数实验中,随着推理阶段计算的增加,模型成功抵御攻击的概率都在稳步提升。

举几个具体例子:在下方几张图中,Y 轴代表攻击者的资源量,X 轴代表推理时间的计算量。当攻击者的资源增加时,其攻击成功概率也会上升。但对于每一固定数量的攻击者资源,攻击成功概率会随着模型在推理时花费更多计算而下降。

数学问题的 many-shot 攻击下,攻击方的目标包括要求模型无论如何都要输出 42、输出正确答案加 1、或输出正确答案乘以 7。但随着推理算力的增加,攻击成功率最终趋近于零。

智能体网页浏览任务中,通过在网站中注入恶意指令来发起攻击,增加推理计算量后,攻击成功率同样下降为零。

即便是面对更强大的攻击,进一步增加推理时间仍然能显著提升防御效果。

论文还针对几种新颖的攻击方式进行了额外分析。Think less 攻击主要对 o1-mini 模型有效,o1-preview 的防御能力表现尚可。Nerd-sniping 攻击则表明,当模型在某些实例上耗费异常多的推理时间时,攻击成功率可能更高,这反映出模型可能会陷入低效的思考循环。

尽管如此,研究者也指出了当前方法的局限性:研究仅涉及有限的任务范围和计算缩放区间;在面对利用策略模糊性或系统漏洞的攻击时,增加计算量可能无效;此外,“think less”和“nerd sniping”攻击也揭示了推理时计算的两面性——攻击者可以诱导模型想得太少或想得太多。

One More Thing

有趣的是,有创业者从这个角度提出了一个很自然的问题:那么 DeepSeek-R1 系列模型是否也能从这一发现中获益呢?

来源:https://www.53ai.com/news/LargeLanguageModel/2025012457860.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。