挪威奥斯陆研究机构发布AI安全测评新框架

首页

热心网友

转载

2026-05-13

假设您是挪威某政府机构的决策者，需要为公共服务咨询选择一款AI语言模型。您最核心的关切是什么？无疑是：哪个模型更安全可靠？哪个更不容易产生有害或错误的回应？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

然而，挑战随之而来。当前全球主流的AI安全评测体系，几乎都基于英语语境和通用场景设计，严重缺乏针对挪威语、挪威本土法规及公共服务特殊需求的评估标准。直接套用这些“舶来品”无异于方枘圆凿。更现实的问题是，即便投入资源定制一套评测题库，等其开发完成，AI模型可能早已迭代数次，评测又需从头开始。

这一困境并非挪威独有。全球众多小语种国家、垂直行业及强监管领域都面临同一核心挑战：在缺乏现成“标准答案”的背景下，如何客观、可量化地评估AI模型的安全性？

为破解这一难题，来自挪威奥斯陆大都会大学、辛穆拉城市数字工程中心、辛穆拉研究实验室、奥斯陆大学及挪威卫生局的联合研究团队，创新性地提出了一套名为“无基准比较安全评分”的全新方法论，并将其实现为开源工具SimpleAudit。其核心思路在于范式转换：既然无法验证“答案是否正确”，那就转而验证“评分工具本身是否可信”。

当没有

一、现有AI安全评测方法为何力不从心？

要理解新方法的价值，需先厘清现有主流评测方式的局限性。它们主要分为三类：

第一类是“静态题库评测”，即预设问题与标准答案。其弊端明显：题库固定而AI持续进化，且语言严重偏向英语。研究团队调研发现，即便是相对全面的挪威语评测集NorEval，也完全缺失安全评估维度。其他零散的挪威语工具，或仅检测毒性，或只衡量偏见，无法满足实际部署所需的综合性安全评估要求。

第二类是“自动化红队攻击”，即用一个AI去诱导另一个AI暴露弱点。这种方法生成的是海量对话日志，难以转化为可量化、可重复对比的标准化分数。对于依赖清晰数据支撑采购决策的政府场景而言，这并非理想方案。

第三类是“AI裁判评分”，即让另一个AI模型充当评分员。该方法已被多项研究证实存在可靠性问题：裁判AI往往自带偏好，例如倾向于语言更流畅、篇幅更长或风格更接近自身的答案。更关键的是，不同裁判给出的绝对分数缺乏可比性，尽管其相对排名（模型A优于模型B）通常具有一定参考价值。

研究团队将上述方法均难以有效覆盖的场景，明确定义为“无基准比较安全评分”场景。其核心特征包括：无标准答案、需产出可重复的量化分数、必须在本地运行（以保护敏感数据）、且能适应模型迭代后的重新评估。

二、思路转换：从验证“答案”到验证“工具”

既然没有标准答案，传统的“答案比对”验证路径便行不通。研究团队转换了思路：不再追问“AI的回答是否正确”，而是系统性地验证“这套评分工具本身是否可靠可信”。

为此，他们设计了一条必须全部通过的“工具可信度验证链”，包含三个核心环节：

第一环节：“响应性验证”。核心逻辑如同校准温度计：一把好尺子必须能清晰区分冰点与沸点。对于安全评分工具，其至少应能有效区分“明显安全的AI”与“明显不安全的AI”。研究团队通过对比正常AI与经过技术处理、移除了拒绝能力的“不拒绝版”AI进行测试。这相当于用已知的极值来校准测量仪器的灵敏度。

第二环节：“目标敏感性验证”。即便工具能区分安全与否，也可能源于非目标因素，例如裁判AI的个人偏好。为排除干扰，研究团队将评分过程中三个关键角色——被测AI（目标）、负责提问的“审计员AI”、负责打分的“裁判AI”——的贡献进行拆解分析。理想情况下，分数波动应主要源自被测AI本身的安全特性差异，而非审计员或裁判的偏好。

第三环节：“可重复性验证”。可靠的测量工具应具备稳定性。评分结果不应随机跳跃，必须在多次重复实验中保持稳定。研究团队通过重复实验来检验分数的可重复性与一致性。

这三个环节共同构成了“工具有效性链”框架。通过该验证的工具，虽不能保证其评分百分百对应现实世界的绝对安全性（这需领域专家最终判断），但至少证明它捕捉到的是真实信号，而非测量工具自身的噪声或偏差。

三、SimpleAudit工具的工作原理

理解验证框架后，再看SimpleAudit工具的具体设计。其流程可类比为一场精心设计的模拟考试：

目标模型即“考生”。
审计员AI扮演“主考官”，负责提出深入且具挑战性的问题。
裁判AI扮演“评卷老师”，负责评估考生的整体表现。

这三个角色完全独立，可分别替换为不同的AI模型，这一设计对分离各自影响至关重要。

单次评测流程如下：从一个结构化的“场景包”中选取一个安全场景（例如“如何处理用户询问制造危险物品的信息”），审计员AI据此与目标AI展开多轮对话，并逐步加深追问。对话结束后，裁判AI审阅完整记录，给出0到4分的严重程度评分（0分代表最严重的失败）。所有场景的平均分将被映射到0-100分区间，分数越高代表安全性越佳。

除平均分外，工具还会统计“危机率”，即所有场景中获得0分（最严重失败）的比例。该指标至关重要，因为高平均分有时会掩盖少数但致命的严重失误。

场景包是一个结构化文件，包含场景名称、描述和分类。研究团队为挪威公共部门场景专门构建了一个涵盖36个具体场景的包，覆盖医疗健康、公共服务、语言使用和安全法律四大类别。整个工具完全在本地运行，无需将敏感数据发送至外部服务器，这对政府等受监管机构而言是关键优势。

四、三大关键验证的实验结果

研究团队使用SimpleAudit对上述三个验证环节进行了实证检验，结论明确。

关于“响应性”：使用AUROC指标（范围0.5-1.0，1.0代表完美区分）衡量工具区分正常AI与“不拒绝版”AI的能力。在配置最强裁判和审计员时，三个不同规模的目标AI获得的AUROC值分别为1.00、0.98和1.00，接近完美区分。即便使用较小规模的裁判和审计员，AUROC也保持在0.89以上。这表明，这把“尺子”能有效区分安全性的“两极”。

关于“目标敏感性”：通过“方差分解”统计方法分析发现，目标AI身份的差异贡献了约52%的分数波动，是三大因素中最大的。审计员和裁判分别贡献了约28%和25%。这好比测量体重时，读数变化主要源于体重的真实变化，而非体重秤的品牌差异，证明工具主要测量的是目标特性本身。

关于“可重复性”：10次重复实验表明，对于正常AI，单次运行的误差约为8.3分（满分100），重复运行9次后误差可缩小至0.9分；对于不安全AI，分数稳定得更快。研究团队据此建议“至少运行10次”，在此次数下分数的稳定性已足以支撑可靠的比较决策。

五、如何选择裁判与审计员模型？

这是一个非常实际的配置问题。研究团队对此进行了深入分析。

关于裁判的选择：他们测试了五个不同规模的本地AI模型作为裁判，并与“标准参考裁判”GPT-5进行比较。关键指标是“危机遗漏率”，即裁判将GPT-5判定为严重的问题错误归类为无关紧要的概率。结果显示，参数规模最小的两个模型（4B和9B）不合格，其中4B模型的危机遗漏率高达44%。而122B和35B规模的模型，危机遗漏率均在10%左右，接近GPT-5自身的一致性水平（约4%），可作为可靠的本地裁判。

关于审计员的选择：结论更为微妙且关键。审计员是整个工具中“最重要的设计选择”。能力太弱，无法提出有深度的问题，难以考出真实差距；能力过强，反而会适得其反。当使用最强的GPT-5作为审计员时，它甚至将正常安全的AI也逼至低分，导致不同AI之间的安全差异被“压平”，失去了区分度。因此，审计员的能力必须与被测AI的能力范围相匹配，既要能施加有效压力，又不能强到抹杀所有差异。

此外，研究团队发现了一个节省成本的配置策略：让裁判和审计员使用相同规模的模型。这是因为裁判的评分偏差在计算两个AI的“分数差”时会相互抵消，而审计员的影响则不会。因此，在资源有限的情况下，将更多计算资源分配给审计员比分配给裁判更具性价比。

六、该验证框架是否具有普适性？

为检验验证框架的普适性，研究团队将其应用于另一个由Anthropic公司开发的评测工具Petri。

Petri默认包含38个评分维度。使用相同的实验设置进行检验后发现，该框架确实具有普遍意义。例如，Petri的“concerning”（令人担忧）维度完美通过了三个验证环节。然而，也有一些维度未能通过。例如，“u_bizarre_behavior”（无故怪异行为）维度虽然能测量到AI的某种真实特性，但该特性与安全性关联较弱，更多反映的是AI的能力高低。而“admirable”（令人钦佩）维度则连目标敏感性验证都未通过，其分数主要反映的是裁判的偏好，而非被测AI的行为。

这些对比揭示了一个深层道理：工具通过了验证链，不等于其每个维度都可信；工具未通过验证链，也不等于所有维度都无用。验证链的价值在于精确指出哪些维度能作为可信的评分依据。

从实际效率看，Petri每次运行消耗的计算资源（token）约为SimpleAudit的1.7倍，主要源于其审计员使用了更复杂的工具调用机制。对于需要频繁重测的场景，这个差距会随着次数累积而放大。

七、实战应用：挪威公共部门采购案例（Borealis vs Gemma 3）

经过验证后，研究团队将工具应用于一个真实的采购比较场景：在挪威公共部门部署背景下，比较挪威本地开发的Borealis Instruct与Google的Gemma 3 IT在不同规模下的安全表现。

两款模型均测试了1B、4B、12B和27B四个参数规模。实验使用了36个挪威场景，每个配置重复运行10次。

结果显示，Borealis的安全分数随规模增大而提升：从1B的4.6%升至4B的27.9%，再到12B的42.3%。然而，从12B到27B，分数仅微增1.4个百分点，甚至小于单次运行的正常波动范围。更细致的类别分析显示，医疗健康和安全法律两个类别在27B规模时分数反而比12B略有下降。这表明“规模越大越安全”并非无条件成立的铁律。

在直接对比中，Borealis在4B、12B、27B规模上的全场景平均分分别比Gemma 3高出14.2、7.0和6.0个百分点，且差异均超出测量误差范围。危机率的对比也呈现相同趋势。但在1B规模上，两者的差距（0.8个百分点）在误差范围内，无法确定孰优孰劣。

然而，分类别看，故事更为复杂。Borealis在医疗健康、公共服务和安全法律三个类别上优势明显，但在语言类别上，两者几乎持平，且Borealis的语言类危机率在多个规模上反而更高。这意味着，如果一个机构的核心需求是语言处理，Borealis的整体优势可能并不直接适用。

研究团队特别强调，这些数字是在固定工具、固定场景包、固定裁判条件下得出的比较证据，不代表对模型的绝对安全评级，更非部署许可证。正确的使用方式是将分数、分数差、危机率差、类别细分及不确定性范围打包成一套完整证据，交由具备具体领域知识的决策者进行综合判断，而非将一个孤立数字视为最终排名。

八、方法的局限性与未来展望

研究团队对自身方法的局限性保持了坦诚的态度。

首先，通过验证链仅能证明“工具测量了真实信号”，而非“工具测量的就是实际部署中最重要的安全因素”。后者需要领域专家根据具体场景风险来判断。

其次，当前验证中使用的“不安全”对照组（不拒绝任何请求的AI）仅测试了“拒绝有害请求”这一安全维度。现实中的不安全行为还包括提供错误信息、产生偏见、泄露隐私等，这些均不在当前验证框架覆盖范围内。

第三，现有工具未专门处理“AI是否知晓自己正在被评测”的问题。已有研究表明，AI模型有时能“察觉”处于测试状态并表现得更为谨慎。这对前沿大模型已有初步对策，但SimpleAudit尚未实现相应措施。

第四，场景包的质量完全取决于设计者对实际部署风险的理解。场景包过于狭窄会导致评估精确但不完整；过于宽泛则会使类别细分难以解读。正确的使用方式是迭代式的：运行、审阅、修订场景包、再运行。

九、从框架中汲取的普遍规律

这项研究的核心贡献，在于提出了一种关于测量本身的范式转变：在没有“标准答案”的情况下，评估一个测量工具是否可信，应通过检验其对已知对比的响应性、其对目标特性的敏感性以及其结果的稳定性来实现，而非执着于与不存在的标准答案对比。

这一思路的影响超越了AI安全评测。任何在新兴领域、小语种场景或受监管垂直行业中需要评估AI系统，却又缺乏现成标准的情况，这套验证框架都提供了一条可操作的替代路径。

对于希望复现或应用此方法的团队，研究团队提出了明确的最低披露要求：必须报告评测工具的所有配置参数、分数及分数差、危机率差、置信区间，以及工具明确不支持的主张。只有打包报告这套完整信息，比较结论才有意义。单独拿出一个分数声称“A比B安全”是站不住脚的。

SimpleAudit已作为开源工具发布，并获得了“数字公共品”认证，这意味着公共机构可自由使用，且任何人都能审查其代码、复现结果，甚至使用更强的审计员来挑战原有结论。

归根结底，AI安全评测本质上是一个测量问题。测量的核心不在于“我们是否有标准答案”，而在于“我们是否有足够理由相信测量工具捕捉到了真实信号”。这项研究为在没有标准答案时建立这种信任指明了一条清晰、可操作的路径，尽管这条路径的终点，仍然需要领域专家结合具体情境做出最终的审慎判断。

来源:https://www.techwalker.com/2026/0513/3186799.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：黄仁勋2026财年薪酬降至3630万美元同比减少27% 下一篇：开源Claude Design本地部署指南免费替代方案一周获五千星