Anthropic 发布 AI 安全评估框架:从“越狱”风险到分级治理
2025 年 7 月 3 日,Anthropic 正式发布了一份关于 AI 安全的重量级文件——一套用于评估人工智能“越狱”行为严重程度的框架,并同步披露了其最新模型 Claude Fable 5 在全球范围内上线所采用的网络安全防护措施。这份文件的核心是将网络安全相关的使用场景划分为四个等级,从“绝对禁止”到“完全无害”,为 AI 安全治理提供了清晰的操作基准。
根据框架定义,被直接拉黑、禁止使用的用途包括:
- 勒索软件开发与传播
- 恶意软件编写(如病毒、蠕虫、木马)
- 针对网络—物理基础设施的破坏活动(如电网、交通系统攻击)
而对于渗透测试这类具有“双刃剑”属性的高风险操作,在更完善的控制机制落地之前,也会被果断拦截。这一分级策略避免了“一刀切”式的管理,同时为安全研究人员保留了合规探索的空间。
CJS 评级体系:量化 AI 越狱危害的五级标尺
如何量化这些越狱行为带来的实际危害?Anthropic 推出了名为 Cyber Jailbreak Severity(CJS) 的评级体系,缩写为 CJS,从 0 级到 4 级共设五档。评估维度锁定在以下四个方面:
- 攻击可行性:越狱方法是否容易被复制与自动化
- 危害范围:单个事件可能影响的用户或系统规模
- 持久性:漏洞被利用后能否被持续利用或二次传播
- 检测难度:越狱行为是否容易被现有安全工具发现
值得注意的是,Anthropic 同步上线了 HackerOne 项目,面向全球安全研究人员公开征集潜在的模型越狱案例。安全专家可以提交攻击向量,Anthropic 负责评估并快速修补漏洞。这种“开门请黑客”的策略,本质上延续了互联网安全社区经典的众测模式,将外部威胁情报转化为内部防御的“燃料”。
Claude Fable 5 安全防护:从绝对禁止到可控使用
作为 Anthropic 最新一代旗舰模型,Claude Fable 5 的安全防护体系与上述框架深度绑定。除了对高风险用途实施“绝对禁止”外,模型还内置了多层对抗训练与行为约束层:
- 输入敏感指令过滤:实时检测并阻止勒索软件、恶意脚本等生成请求
- 输出安全审计:对模型推理结果进行二次校验,防止“隐形越狱”
- 动态策略更新:根据 HackerOne 提交的越狱案例,定期更新安全规则库
例如,针对渗透测试这类高风险场景,框架并未彻底封杀,而是要求企业用户通过严格的身份验证与用途备案才能申请临时白名单。这种“熔断+豁免”机制,既保障了安全底线,又不妨碍合法的攻防研究。据 Anthropic 官方披露,在 Fable 5 预训练阶段,团队投入了超过40% 的训练算力用于安全对齐与对抗鲁棒性优化,这一数据远超行业平均水平的 15%–20%。
行业视角:CJS 评级体系如何重塑 AI 安全治理
从整个 AI 行业的角度来看,这份框架的价值远不止于技术细节。它实际上是在给“AI 安全治理”这个长期混沌地带划定可操作的坐标。过去,业界讨论大模型风险时常常陷入“很危险”与“没关系”的二元争论,缺少中间状态的判断标准。现在有了 CJS-0 到 CJS-4 的五级标尺,各方至少可以开始用同一把尺子度量问题:
- 企业内部风控:安全团队可以据此制定差异化的审批流程——CJS-1 及以下允许自主测试,CJS-2 需要主管复核,CJS-3 及以上必须冻结访问。
- 监管沟通基础:CJS 评级为政府监管部门提供了技术语言,避免直接拿“是否造成实际损失”等定性指标来问责,提高政策制定的可操作性。
- 第三方审计标准化:安全审计机构可以用 CJS 体系对比不同模型的越狱风险等级,推动行业建立统一的安全基线。
当然,框架只是起点,真正考验的还在落地执行上。例如,CJS 评级中的“攻击可行性”维度高度依赖安全研究人员的主动提交,若 HackerOne 项目的激励不足,可能导致漏洞发现滞后。此外,Anthropic 目前仅针对网络安全场景划分了四级分类,而 AI 越狱还可能涉及隐私泄露、内容操纵、偏见放大等其他风险,未来需要扩展评估维度。不过无论如何,Anthropic 此举已经为行业打开了可量化、可比较的治理新范式——就像网络安全领域的 CVSS 漏洞评级系统一样,CJS 有望成为 AI 安全领域的“通用标尺”。
对于其他大模型开发商而言,该框架也释放了一个明确信号:安全不能只在事后“打补丁”,而要在模型设计阶段就嵌入分级治理逻辑。随着 Claude Fable 5 的全局部署,全球数百万用户将首次在真实场景中体验到这套系统的运转。是成为行业标杆,还是暴露执行落差,市场很快会给出答案。
