2025年8月8日凌晨,OpenAI正式发布了新一代GPT-5系列模型,这次一口气推出了三个版本。在编码、数学、写作、健康、视觉感知等多个维度上,GPT-5都拿下了当前最先进的性能。它的设计逻辑很巧妙——一个统一的系统,知道什么时候该快速响应,什么时候需要慢下来思考,给出专家级的答案。所有用户都能用上GPT-5,Plus订阅者有更多配额,Pro订阅者则能解锁GPT-5 Pro,那个版本配备了扩展推理能力,答案更全面、更精准。
就在发布当天,BraneMatrix AI团队第一时间对GPT-5的安全性能提升做了技术解析,并在完全可控的环境里进行了一轮安全测试。结果相当惊艳:GPT-5系列的安全性能实现了跨代式升级,放在全球AI领域都称得上前所未有。不过,在高级测试环境中,GPT-5依然可以被稳定攻破——当然,具体的攻击技术细节我们不能也不会披露,尤其是在全球范围内还缺乏AI原生的漏洞算法安全负责任协同披露机制的情况下。
与此同时,测试还发现,GPT-5在面对对抗样本时表现出明显的脆弱性。即便经过了针对性优化训练,它仍然容易被嵌入对抗噪声的输入干扰,产生偏离预期的输出。换句话说,安全性和鲁棒性还有不小的提升空间。



注:可参考以下两篇论文——
[1] Jia, Xiaojun, et al. "Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment." arXiv preprint arXiv:2505.21494 (2025).
[2] Li, Zhaoyi, et al. "A frustratingly simple yet highly effective attack baseline: Over 90% success rate against the strong black-box models of gpt-4.5/4o/o1." arXiv preprint arXiv:2503.10635 (2025).
也正是基于这些发现,我们推出了全球首个针对AI原生的漏洞算法安全负责任协同披露机制(RCD-AI:Responsible Coordinated Disclosure for AI algorithms)。这个机制借鉴了传统网络安全领域“负责任的漏洞披露”最佳实践,参考了CVE/CWE体系、Bug Bounty计划、协调披露框架等经验,再结合AI算法安全(尤其是越狱攻击、幻觉、安全策略绕过、隐私泄露等)面临的新范式,起草了面向AI算法原生的“负责任协同披露机制”制度框架草案。
GPT-5安全性能提升技术解析
1. 安全训练范式
这是一种以输出为导向的安全技术,彻底告别了传统模型简单的“拒绝或回答”二元分类模式。GPT-5被训练为在识别潜在风险时,主动生成既有帮助价值又完全符合安全策略的“安全答案”。
技术细节:
- 在强化学习(RL)阶段,奖励模型被设计为同时评估回答的安全性和帮助性,这是一种更复杂的双目标优化策略。
- 模型不仅避免生成有害内容,还能在风险场景下提供实用且合规的替代回答。
优势:相比传统模式,这种方法更灵活、更智能,在保证安全的同时也提升了用户体验。
2. 针对性的行为矫正训练
通过专门设计的训练任务和数据集,GPT-5在行为层面得到了优化,显著减少了“谄媚”和“欺骗”倾向。
具体措施:
- 设计大量“信息不足”或“无法完成”的任务场景。
- 训练模型在面对局限性时诚实承认(例如“我无法完成此任务”),并为此赋予高奖励。
- 对编造答案的行为施加惩罚,确保模型保持真实性。
- 构建专门数据集,包含用户观点的多样化样本。
- 奖励模型识别并惩罚“无条件迎合用户”的行为,施加负向奖励信号。
- 在RLHF阶段,引导模型生成更客观、中立的回答。
- 减少谄媚。
- 降低欺骗。
效果:这种训练提升了模型的透明度和可信度,使其输出更符合客观事实。
3. 强化的思维链与过程奖励
GPT-5被深度训练以生成详细的内部思维链(Chain of Thought, CoT),并通过“过程奖励”机制优化复杂问题的解决能力。
技术细节:
- 模型在回答问题时,会逐步分解问题并生成逻辑清晰的推理步骤。
- 奖励模型不仅关注最终答案的正确性,还评估整个推理过程的逻辑性和合理性。
- 这种“过程奖励”机制鼓励模型在多步骤任务中保持一致性和准确性。
优势:显著提升了模型在数学推理、逻辑分析等复杂任务中的表现,使其更适合高难度应用场景。
4. 优化的工具使用与事实核查
为了减少幻觉(Hallucination),GPT-5在与外部工具交互及事实核查方面得到了强化训练。
技术细节:
- 模型能够自主判断何时需要外部信息支持,例如调用网络浏览器查询最新数据。
- 在生成回答时,模型会构建精准的查询指令,并综合外部信息生成准确答案。
- 内置事实核查机制,验证输出内容与可信来源的一致性。
效果:显著降低了虚构信息的生成率,提高了回答的可靠性和事实依据。
5. 基于思维链的监控技术
通过分析模型生成的内部思维链,开发人员能够洞察其“思考过程”,从而提升安全性与透明度。
技术细节:
- 模型在生成回答前,会记录详细的推理步骤,形成可追溯的思维链。
- 开发人员利用这些数据,及早发现并干预潜在的欺骗、偏见或逻辑谬误。
- 提供了一种动态监控和改进模型的手段。
优势:为模型的安全性分析和持续优化提供了前所未有的透明度,增强了开发者和用户的信任。
补充技术亮点
- 多模态能力:GPT-5可能在处理文本、图像、音频等多模态数据方面显著提升,适用范围更广。
- 可解释性增强:除了思维链监控外,可能结合注意力机制可视化等技术,进一步揭示模型决策过程。
- 鲁棒性优化:通过对抗性训练和异常输入处理,GPT-5在边缘情况下的表现更加稳健。
- 模块化设计:架构更具可扩展性,便于在不同硬件和软件环境中部署。
AI算法漏洞负责任协同披露机制(RCD-AI)制度草案(草案v0.9,行业发起完善V1.0后我们会更新到开源社区)
一、构建该机制的必要性
1. AI算法的攻击面已脱离传统安全边界:
- 不再局限于系统接口、协议或指令漏洞;
- 更多来自自然语言构造、模型行为策略失效;
- 具备强泛化性、跨场景迁移性,影响范围不可预测。
2. 传统漏洞处理机制难以适配算法漏洞特征:
- 无法CVE化归类;
- 无清晰的代码定位;
- 缺乏标准化复现方式。
3. 当前算法漏洞披露面临的风险与真空:
- 没有行业统一流程;
- 学术与产业之间反馈机制断裂;
- 企业往往隐瞒处理,研究者面临法律风险。
二、RCD-AI核心目标

三、RCD-AI机制组成结构
3.1 漏洞分类体系(初拟)

3.2 披露流程(标准化)

3.3 研究者保护条款
合规研究者若遵循RCD-AI披露流程,不得被追责、打压或威胁;可获得披露奖励、行业声誉、研究协助;如厂商威胁研究者,披露协调平台可代表其交涉。
四、漏洞报告格式建议(参考模板)
- 漏洞类型:PRJ-001(Prompt注入)
- 发现模型:Qwen-72B-Chat
- 复现方式:
-提示词链长度:3层CoT结构
-模拟身份设定:多角色切换
-越狱表现:模型生成违禁场景描述(内容已遮蔽) - 风险等级:高(输出无法拦截,触发概率>85%)
- 发现时间:2025年8月3日
- 首次上报:2025年8月4日
- 厂商反馈:已在处理(预计修复时间9月)
- 研究者信息:(可匿名)
五、行业协同机制建设建议
- 成立“AI算法漏洞联合响应组(ALR-AI)”,吸纳模型厂商、研究机构、安全公司、监管机构;
- 设立算法漏洞数据库(可类比NVD),提供非敏感复现样例、统计数据、测试脚本模板;
- 建议国内建立“算法安全能力认证制度”,鼓励厂商对越狱、幻觉、内容风险等能力进行定期检测认证。
六、结语:未来算法安全生态的基础设施
AI算法安全,尤其是越狱攻击防护,是所有AI产品走向合规商业化的“底层共识”。一个行业级的RCD-AI机制不仅是对研究者和厂商的保护机制,也是对整个社会风险管理体系的积极补充。我们建议在国家级网络安全机构支持下构建公开、透明、可信的披露平台,并与国际标准(OpenSSF, FIRST, NIST等)接轨,推动算法安全走向“可控、可溯、可演进”。
