第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
他们的研究发现,对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。
你的 AI 编程助手有多安全?也许比你想象的要脆弱得多。近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题。
在亚马逊举办的针对代码智能体的安全比赛 (Amazon Nova AI Challenge) 中,普渡大学的团队PurCL作为红队以超过 90% 的攻击成功率获得比赛第一名,赢得 25 万美元奖金。
在比赛中,12 名团队成员耗时八个月和百万美元开发出基于 AI 认知建模的全过程红队系统,现开放给领域研究者共享使用。
他们的研究发现,对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。

亚马逊代码模型安全比赛
亚马逊代码模型安全比赛是一场针对大模型代码安全的比赛。举办方邀请全球顶尖研究队伍提交科研企划,最终在 90 份企划中资助 10 个团队参加比赛,每个团队在半年的时间内获得了 25 万美元的科研基金和 100 万美元的计算资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全对齐实践,红队则要在 200 轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得比赛胜利。
在这场比赛中,代码模型的安全被分成两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应当检查用户输入,小心避免 SQL 注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。
普渡大学团队 PurCL 作为红队在各个蓝队系统中以平均超过 90% 的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得 25 万美元奖金。PurCL 的研究发现,当前前沿的 AI 安全研究尚未解决真实世界中的模型安全问题。对代码等复杂领域的全面、有效对齐仍然是有挑战性的开放问题。
AI 模型安全评估
过去的大多数模型安全评估都在一个静态预先定义的数据集上进行。经典的例子包括不能让模型帮助合成生化武器。传统红队研究在这个基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型对齐,则聚焦对红队技术的防御。
传统研究忽视了真实世界系统中的重要挑战:真实的安全需求包括复杂的领域知识,而当前研究尚未确定已有蓝队技术是否能够在复杂领域中保持有效性。
AI 认知建模
PurCL 队伍提出用类似于人类认知科学的方式来建模 AI 对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为“问题”,“推演”,“解决方案”三个部分。
以人类的魔方游戏为例,“问题” 是一个被打乱的魔方,“推演” 是每次对魔方转动的策略,“解决方案” 则是重排的魔方。对于代码智能体来说,“问题” 是用户提出的请求,“推演” 是模型的中间推理步骤,而 “解决方案” 则是生成的代码片段。

图 1: 对 AI 智能体的认知建模
在这个框架下,已有蓝队研究大致可以分成三类:
对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或误导性信息,并直接拒绝这类请求。
对推演步骤的加强。如 OpenAI 在最新模型上应用的 Deliberative Alignment 技术,利用模型的推理能力来分析请求背后的隐含意图和潜在影响,从而阻止恶意的请求。
对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有恶意或危险元素,并拒绝或修复对应的部分。

图 2: 蓝队技术建模
在这样的建模下,PurCL 的研究发现,对齐技术主要面临两大挑战:
在对于问题和解决方案的分类过滤中,一些领域专有的知识可能涉及安全分类器训练的盲区。他们发现,已有的顶尖安全分类器可以轻松防御常见话题上的 9 种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的有效性降低到了 10% 以下。

图 3: 防御成功率。危险输入识别 (Guard) 和危险输出识别 (I/O Guard) 可以有效识别大多数越狱技术(Jail. Tech.). 而 ASTRA 可以将防御成功率降低到 10% 以下(图中未展示 ASTRA 的结果)
在基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的归因。如果在输入的请求中解决了这些错误归因,即使拥有推理能力的模型也会忽略安全风险。
基于这样的观察,PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。
领域知识建模
PurCL 团队开发了 Enumerator 智能体。给定一个复杂的领域,它应用类似深度搜索的模式来枚举这个领域的知识结构,识别其中可能存在的安全风险和问题。为了在测试中高效响应不同模型的知识漏洞,这些知识结构被按照他们的相关性来组织。在测试过程中,如果一个模型在某个知识点犯了错误,这通常意味着在相关的别的知识点也可能出错,因此相关知识应当被优先测试。
以安全代码合规和恶意请求预防两个领域为例,PurCL 团队在这两个领域上构建了包含 2.28T (trillion) 和 1x10^28 个可能请求的问题搜索空间,他们发现所有的现有对齐方案都在覆盖率和大规模数据的有效性上有明显缺陷。
推理路径分析
PurCL 团队针对基于推理模型的蓝队系统,研发了 ASTRA 推理路径分析方法,用于发现并利用模型推理过程中的安全薄弱环节。不同于只看输入输出的传统红队测试,ASTRA 先离线为易错输入构建 “决策图”,由高能力模型生成合法拒绝路径。与目标系统交互时,ASTRA 获取目标模型的推理轨迹并比对决策图,判断其安全对齐程度。若存在缺失步骤、错误步骤或多余步骤,系统会据此自动生成针对性改写输入,绕过模型防护。例如,在自动驾驶案例中,ASTRA 通过补全无关格式校验诱使模型执行危险请求。该方法能系统揭示推理漏洞,生成高效攻击用例,显著提升红队测试深度,并为 AI 安全对齐研究提供新工具。

图 4: ASTRA 在 Reasoning Model 上的推理路径分析流程
SOTA模型测试结果
在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码;在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外,基于这套系统,作为案例分析,PurCL 团队成员还通过实验证明了代码智能体例如Claude可以显著加速恶意勒索软件开发。

图 5: ASTRA 在 SOTA 模型上的攻击成功率(部分)

图 6: ASTRA 在 SOTA 模型上找到的不符合安全编码规范的代码比例(部分)

图 7: 在 ASTRA 帮助下队员用 Claude 尝试生成的勒索软件(本地断网实验后已安全删除)
讨论
模型对齐的研究不应该只停留在防御不同的越狱技术或改写策略。更严峻和显著的问题是如何把对齐技术扩大到复杂的真实领域问题中。此外,推理模型的安全也越发重要,例如如何可靠利用模型的推理技能,提高推理的安全相关性,减少在推理过程中暴露的安全漏洞等。
团队介绍
团队负责人
徐翔哲:普渡大学四年级博士生,研究代码智能体、程序分析。
沈广宇:普渡大学五年级博士生,研究 AI 安全。
核心贡献
苏子安:普渡大学四年级博士生,研究深度学习和代码智能体。
程思源:普渡大学四年级博士生,研究 AI 安全。
团队成员
代码和程序分析团队:郭进尧(一年级博士生),蒋家盛(二年级博士生)
AI 安全团队:郭含熙(三年级博士生),闫璐(四年级博士生),陈璇(四年级博士生),金小龙(三年级博士生)
导师
张翔宇:普渡大学 Samuel Conte Professor. 研究 AI 安全、程序分析、代码安全等。
张倬:哥伦比亚大学 Assistant Professor. 研究二进制安全、AI 安全、web3安全等。
王程鹏:普渡大学 Postdoc, 博士毕业于香港科技大学。研究程序分析,智能软件审查等。
相关攻略
从零到一:用AI生成一份专业的媒体影响力报告 但凡在内容或运营团队待过的人,大概都对制作《媒体影响力报告》这类活儿记忆犹新。那过程,堪称一场跨部门接力赛:运营同事得先从各个平台后台手动扒拉数据,计算阅读量、粉丝增长和互动率;拿到一堆冰冷数字后,还得拉着账号负责人反复琢磨定位和文案;最后,抱着半成品火
封面新闻记者 邹阿江 图由航空工业成飞提供 2026年“五一”国际劳动节前夕,航空工业成飞的技术专家聂海平,荣获了一枚全国五一劳动奖章。 消息传来,身边同事都说,“大师”拿奖是实至名归。可聂海平自己呢,还是那副老样子——摆摆手,说自己不过是个普通人,幸运地站在一个好平台上,干着点自己感兴趣的事儿罢了
编辑 | 王凤枝 “AI时代,每天干3个小时就足够了。” 这句话出自前亚马逊资深工程师、技术大牛史蒂夫·雅吉(Steve Yegge)之口,算得上是对当前AI狂热的一剂清醒剂。 当整个行业都在为“10倍提效”而欢呼雀跃时,雅吉却点出了一个被普遍忽视的代价:在AI的高强度辅助下,程序员的产出固然爆炸式
一、概述 每天重复相同的操作,是不是感觉有点枯燥?比如,你每天都要煮饭,得经历洗米、加水、按下煮饭键这三步。如果每次都要从头到尾念叨一遍这个过程,那可就太费劲了。 别担心,函数就是来拯救你的。在Python的世界里,函数就像一个“一键煮饭”的智能按钮。你只需要把那些重复的步骤打包成一个固定的“命令”
吃透Pandas两大“数据汇总神器”:透视表与交叉表实战指南 在数据处理的工具箱里,如果说基础的清洗、筛选是基本功,那么多维度、交叉式的数据汇总,往往就是区分新手与熟手的分水岭。面对诸如“按地区加品类统计销售额”、“分析不同省份的商品订单分布”这类需求,如果还停留在手动分组、多层循环的老路上,不仅代
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





