GPT-5系列安全性能提升全球首推漏洞协同披露草案

时间：2026-06-23 14:50

GPT-5系列模型发布，安全性能实现跨代升级，但在高级测试中仍可被攻破，对抗样本下存在脆弱性。同期推出全球首个AI算法漏洞负责任协同披露机制（RCD-AI）制度草案，旨在规范漏洞报告与修复流程。

2025年8月8日凌晨，OpenAI正式发布了新一代GPT-5系列模型，这次一口气推出了三个版本。在编码、数学、写作、健康、视觉感知等多个维度上，GPT-5都拿下了当前最先进的性能。它的设计逻辑很巧妙——一个统一的系统，知道什么时候该快速响应，什么时候需要慢下来思考，给出专家级的答案。所有用户都能用上GPT-5，Plus订阅者有更多配额，Pro订阅者则能解锁GPT-5 Pro，那个版本配备了扩展推理能力，答案更全面、更精准。

就在发布当天，BraneMatrix AI团队第一时间对GPT-5的安全性能提升做了技术解析，并在完全可控的环境里进行了一轮安全测试。结果相当惊艳：GPT-5系列的安全性能实现了跨代式升级，放在全球AI领域都称得上前所未有。不过，在高级测试环境中，GPT-5依然可以被稳定攻破——当然，具体的攻击技术细节我们不能也不会披露，尤其是在全球范围内还缺乏AI原生的漏洞算法安全负责任协同披露机制的情况下。

与此同时，测试还发现，GPT-5在面对对抗样本时表现出明显的脆弱性。即便经过了针对性优化训练，它仍然容易被嵌入对抗噪声的输入干扰，产生偏离预期的输出。换句话说，安全性和鲁棒性还有不小的提升空间。

注：可参考以下两篇论文——

[1] Jia, Xiaojun, et al. "Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment." arXiv preprint arXiv:2505.21494 (2025).

[2] Li, Zhaoyi, et al. "A frustratingly simple yet highly effective attack baseline: Over 90% success rate against the strong black-box models of gpt-4.5/4o/o1." arXiv preprint arXiv:2503.10635 (2025).

也正是基于这些发现，我们推出了全球首个针对AI原生的漏洞算法安全负责任协同披露机制（RCD-AI：Responsible Coordinated Disclosure for AI algorithms）。这个机制借鉴了传统网络安全领域“负责任的漏洞披露”最佳实践，参考了CVE/CWE体系、Bug Bounty计划、协调披露框架等经验，再结合AI算法安全（尤其是越狱攻击、幻觉、安全策略绕过、隐私泄露等）面临的新范式，起草了面向AI算法原生的“负责任协同披露机制”制度框架草案。

GPT-5安全性能提升技术解析

1. 安全训练范式

这是一种以输出为导向的安全技术，彻底告别了传统模型简单的“拒绝或回答”二元分类模式。GPT-5被训练为在识别潜在风险时，主动生成既有帮助价值又完全符合安全策略的“安全答案”。

技术细节：

在强化学习（RL）阶段，奖励模型被设计为同时评估回答的安全性和帮助性，这是一种更复杂的双目标优化策略。
模型不仅避免生成有害内容，还能在风险场景下提供实用且合规的替代回答。

优势：相比传统模式，这种方法更灵活、更智能，在保证安全的同时也提升了用户体验。

2. 针对性的行为矫正训练

通过专门设计的训练任务和数据集，GPT-5在行为层面得到了优化，显著减少了“谄媚”和“欺骗”倾向。

具体措施：

设计大量“信息不足”或“无法完成”的任务场景。
训练模型在面对局限性时诚实承认（例如“我无法完成此任务”），并为此赋予高奖励。
对编造答案的行为施加惩罚，确保模型保持真实性。
构建专门数据集，包含用户观点的多样化样本。
奖励模型识别并惩罚“无条件迎合用户”的行为，施加负向奖励信号。
在RLHF阶段，引导模型生成更客观、中立的回答。
减少谄媚。
降低欺骗。

效果：这种训练提升了模型的透明度和可信度，使其输出更符合客观事实。

3. 强化的思维链与过程奖励

GPT-5被深度训练以生成详细的内部思维链（Chain of Thought, CoT），并通过“过程奖励”机制优化复杂问题的解决能力。

技术细节：

模型在回答问题时，会逐步分解问题并生成逻辑清晰的推理步骤。
奖励模型不仅关注最终答案的正确性，还评估整个推理过程的逻辑性和合理性。
这种“过程奖励”机制鼓励模型在多步骤任务中保持一致性和准确性。

优势：显著提升了模型在数学推理、逻辑分析等复杂任务中的表现，使其更适合高难度应用场景。

4. 优化的工具使用与事实核查

为了减少幻觉（Hallucination），GPT-5在与外部工具交互及事实核查方面得到了强化训练。

技术细节：

模型能够自主判断何时需要外部信息支持，例如调用网络浏览器查询最新数据。
在生成回答时，模型会构建精准的查询指令，并综合外部信息生成准确答案。
内置事实核查机制，验证输出内容与可信来源的一致性。

效果：显著降低了虚构信息的生成率，提高了回答的可靠性和事实依据。

5. 基于思维链的监控技术

通过分析模型生成的内部思维链，开发人员能够洞察其“思考过程”，从而提升安全性与透明度。

技术细节：

模型在生成回答前，会记录详细的推理步骤，形成可追溯的思维链。
开发人员利用这些数据，及早发现并干预潜在的欺骗、偏见或逻辑谬误。
提供了一种动态监控和改进模型的手段。

优势：为模型的安全性分析和持续优化提供了前所未有的透明度，增强了开发者和用户的信任。

补充技术亮点

多模态能力：GPT-5可能在处理文本、图像、音频等多模态数据方面显著提升，适用范围更广。
可解释性增强：除了思维链监控外，可能结合注意力机制可视化等技术，进一步揭示模型决策过程。
鲁棒性优化：通过对抗性训练和异常输入处理，GPT-5在边缘情况下的表现更加稳健。
模块化设计：架构更具可扩展性，便于在不同硬件和软件环境中部署。

AI算法漏洞负责任协同披露机制（RCD-AI）制度草案（草案v0.9，行业发起完善V1.0后我们会更新到开源社区）

一、构建该机制的必要性

1. AI算法的攻击面已脱离传统安全边界：

不再局限于系统接口、协议或指令漏洞；
更多来自自然语言构造、模型行为策略失效；
具备强泛化性、跨场景迁移性，影响范围不可预测。

2. 传统漏洞处理机制难以适配算法漏洞特征：

无法CVE化归类；
无清晰的代码定位；
缺乏标准化复现方式。

3. 当前算法漏洞披露面临的风险与真空：

没有行业统一流程；
学术与产业之间反馈机制断裂；
企业往往隐瞒处理，研究者面临法律风险。

二、RCD-AI核心目标

三、RCD-AI机制组成结构

3.1 漏洞分类体系（初拟）

3.2 披露流程（标准化）

3.3 研究者保护条款

合规研究者若遵循RCD-AI披露流程，不得被追责、打压或威胁；可获得披露奖励、行业声誉、研究协助；如厂商威胁研究者，披露协调平台可代表其交涉。

四、漏洞报告格式建议（参考模板）

漏洞类型：PRJ-001（Prompt注入）
发现模型：Qwen-72B-Chat
复现方式：
-提示词链长度：3层CoT结构
-模拟身份设定：多角色切换
-越狱表现：模型生成违禁场景描述（内容已遮蔽）
风险等级：高（输出无法拦截，触发概率>85%）
发现时间：2025年8月3日
首次上报：2025年8月4日
厂商反馈：已在处理（预计修复时间9月）
研究者信息：（可匿名）

五、行业协同机制建设建议

成立“AI算法漏洞联合响应组（ALR-AI）”，吸纳模型厂商、研究机构、安全公司、监管机构；
设立算法漏洞数据库（可类比NVD），提供非敏感复现样例、统计数据、测试脚本模板；
建议国内建立“算法安全能力认证制度”，鼓励厂商对越狱、幻觉、内容风险等能力进行定期检测认证。

六、结语：未来算法安全生态的基础设施

AI算法安全，尤其是越狱攻击防护，是所有AI产品走向合规商业化的“底层共识”。一个行业级的RCD-AI机制不仅是对研究者和厂商的保护机制，也是对整个社会风险管理体系的积极补充。我们建议在国家级网络安全机构支持下构建公开、透明、可信的披露平台，并与国际标准（OpenSSF, FIRST, NIST等）接轨，推动算法安全走向“可控、可溯、可演进”。

来源：https://cloud.tencent.com.cn/developer/article/2695264

性能提升

上一篇文档中心AI大脑：开源轻量RAG智能问答助手设计取舍 下一篇HolmesGPT深度解析从架构原理到Skills机制与SRE智能体评测

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网