OpenAI研究：延长推理时间可防攻击，DeepSeek同样受益_AI热点日报

OpenAI研究：延长推理时间可防攻击，DeepSeek同样受益

类型：热点整理2026-06-29

一个关键发现：OpenAI 提出的最新 Scaling Law，其实际价值又提升了一个台阶。简而言之，对于 o1 这类推理模型而言，它的思考时间越长，就越能有效抵御恶意攻击。换句话说，只要增加推理阶段的计算量，就能直接增强模型面对对抗攻击时的稳健性。随着大语言模型越来越多地被赋予 Agent 能

一个关键发现：OpenAI 提出的最新 Scaling Law，其实际价值又提升了一个台阶。

简而言之，对于 o1 这类推理模型而言，它的思考时间越长，就越能有效抵御恶意攻击。换句话说，只要增加推理阶段的计算量，就能直接增强模型面对对抗攻击时的稳健性。

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

随着大语言模型越来越多地被赋予 Agent 能力，以执行现实世界中的各种任务，模型遭受对抗攻击的风险也与日俱增。尤其是在 OpenAI 官方 Agent“Operator”即将发布之际，选择在这一时机公开这项研究，多少带有让外界放心的意味。

目前主流的防御手段是“对抗性训练”，但其局限性同样明显：一方面高度依赖先验知识，需要预先知晓攻击者的策略；另一方面需要付出“安全税”，在模型稳健性和能力之间艰难取舍，常常顾此失彼。

OpenAI 的实验结果颇为有趣：即便完全不进行对抗性训练，仅仅增加推理阶段的计算量，模型的抗攻击能力也能获得大幅提升。这一结论在多个任务上都得到了验证。

这项新研究的共同一作中，包含了 OpenAI 仅剩的联合创始人之一 Wojciech Zaremba。另一位共同一作 Boaz Barak 则表示：“我们并没有‘解决’对抗稳健性问题……但对于未来的方向感到兴奋。”

针对推理模型的新一轮攻防

针对推理模型的独特特性，研究团队在实验中考察了多种“攻击面”：

Many-shot 攻击：攻击者会在提示中嵌入大量上下文示例，攻击强度由所提供的 token 数量来衡量。
Soft token 攻击：攻击者可以直接操控 embedding 向量，通过梯度下降优化 token 来达成对抗目的。这是一种很强的白盒攻击，但在现实场景中并不常见。
Think less 攻击（想太少）：一种新颖的攻击方式，旨在减少模型的推理计算量，从而增加其出错的概率。
Nerd-sniping 攻击（狙击书呆子）：当模型陷入不必要的“深思熟虑”，在无谓的环节上耗费算力时，反而更容易受到攻击。
人类/AI 红队攻击：邀请专家或 AI 组建红队，通过人机交互，有针对性地探索潜在的提示注入漏洞。
多模态输入对抗攻击：针对图像分类任务，使用特定的对抗性图像数据集发起攻击。

在大多数实验中，随着推理阶段计算的增加，模型成功抵御攻击的概率都在稳步提升。

举几个具体例子：在下方几张图中，Y 轴代表攻击者的资源量，X 轴代表推理时间的计算量。当攻击者的资源增加时，其攻击成功概率也会上升。但对于每一固定数量的攻击者资源，攻击成功概率会随着模型在推理时花费更多计算而下降。

在数学问题的 many-shot 攻击下，攻击方的目标包括要求模型无论如何都要输出 42、输出正确答案加 1、或输出正确答案乘以 7。但随着推理算力的增加，攻击成功率最终趋近于零。

在智能体网页浏览任务中，通过在网站中注入恶意指令来发起攻击，增加推理计算量后，攻击成功率同样下降为零。

即便是面对更强大的攻击，进一步增加推理时间仍然能显著提升防御效果。

论文还针对几种新颖的攻击方式进行了额外分析。Think less 攻击主要对 o1-mini 模型有效，o1-preview 的防御能力表现尚可。Nerd-sniping 攻击则表明，当模型在某些实例上耗费异常多的推理时间时，攻击成功率可能更高，这反映出模型可能会陷入低效的思考循环。

尽管如此，研究者也指出了当前方法的局限性：研究仅涉及有限的任务范围和计算缩放区间；在面对利用策略模糊性或系统漏洞的攻击时，增加计算量可能无效；此外，“think less”和“nerd sniping”攻击也揭示了推理时计算的两面性——攻击者可以诱导模型想得太少或想得太多。

One More Thing

有趣的是，有创业者从这个角度提出了一个很自然的问题：那么 DeepSeek-R1 系列模型是否也能从这一发现中获益呢？

来源：https://www.53ai.com/news/LargeLanguageModel/2025012457860.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。