OpenAI开源Safeguard模型演示：完整呈现AI思维链，优化内容分类

首页

AI资讯

热心网友

转载

2025-10-31

10月30日科技媒体NeoWin发布消息称，OpenAI于昨日（10月29日）推出两款开源权重模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b。这两款模型专门设计用于根据用户提供的策略对内容进行推理、分类和标记。

这标志着继今年早些时候发布gpt-oss系列推理模型后，OpenAI在开源领域的又一重要布局。新模型是此前gpt-oss模型的微调版本，同样遵循宽松的Apache 2.0许可证，允许任何开发者免费使用、修改和商业部署。

与传统的“一刀切”式安全系统不同，gpt-oss-safeguard将定义安全边界的权力交还给了开发者。其核心机制在于，模型无需在训练阶段硬编码规则，能够在推理阶段直接解释并应用开发者提供的安全策略。

gpt-oss-safeguard的核心工作机制是，在模型推理（即实际运行）阶段接收两项输入：一项是开发者自定义的安全策略，另一项是需要分类的内容（如用户消息或AI生成内容）。

OpenAI 再出开源力作 Safeguard 模型：可完整展示 AI“思维链”，强化内容分类能力

为了提升透明度和可用性，模型支持完整的“思维链”（Chain-of-Thought, CoT）输出，能够展示其得出结论的每一步推理过程。

这种设计允许开发者随时按需调整策略，确保分类结果与特定应用场景保持一致。同时，透明的决策过程也让开发者能清晰地追溯和理解模型的判断逻辑。

与传统安全分类器相比，gpt-oss-safeguard的最大优势在于其灵活性。传统分类器通常基于包含数千个标注样本的大型数据集进行训练，策略一旦固化，更新就需要重新收集数据并训练模型，过程耗时耗力。

而gpt-oss-safeguard直接在推理时解读策略，无需重新训练即可快速适应新规则。这种方法源于OpenAI的内部工具Safety Reasoner，它通过强化学习微调技术，学会了对安全策略进行推理和解释。

OpenAI强调，这种方法在四种特定场景下尤其有效：

当潜在风险是新兴或快速演变的，该模型能支持策略的快速适应。

对于那些领域高度细微、传统小型分类器难以处理的场景，它表现更佳。

当开发者缺乏足够样本来为平台上的每种风险训练高质量分类器时，该模型提供了有效解决方案。

在那些对生成高质量、可解释标签的重视程度超过低延迟的场景中，它也是理想选择。

OpenAI 再出开源力作 Safeguard 模型：可完整展示 AI“思维链”，强化内容分类能力

当然，gpt-oss-safeguard模型也并非完美，OpenAI提示开发者需要注意两个主要的权衡：

第一，如果开发者有足够的时间和数据（如数万个已标注样本来训练一个传统的分类器，那么在处理复杂或高风险任务时，传统分类器的精度可能仍然会超越gpt-oss-safeguard。换言之，追求极致的精确度时，定制训练的系统或许是更优选项。

第二，gpt-oss-safeguard的运行速度较慢且资源密集，让其在大型平台上对所有内容进行实时扫描变得更具挑战性。

这两款模型目前已在Hugging Face平台上开放下载。

附上参考地址

Introducing gpt-oss-safeguard

技术报告

Hugging Face

来源:https://www.ithome.com/0/893/472.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：2030年印度开发者数量将超美国，GitHub报告揭示全球趋势下一篇：维基百科弹窗暗讽马斯克，称Grokipedia“非机器创造”

相关攻略

科技数码

ChatGPT图像识别与语音输入如何实现表格自动填写

ChatGPT新增图像识别与语音输入填表功能，用户上传表单图片后，可通过语音或文字说明内容，AI自动识别并填写字段。该功能整合多模态能力，需同时完成图像识别、指令理解与内容生成。目前输出为静态图片，对图像质量有要求，尚未支持可编辑文档，旨在让AI更自然地执行连贯任务，简化人工操作。

热心网友

05.23

AI资讯

ChatGPT智能填表技巧图像识别与语音输入全解析

OpenAI为ChatGPT新增AI填表功能，用户上传表格图片后，可通过语音或文字指令让系统自动识别表单结构并填写内容，甚至可基于表格生成图片。目前输出为静态图片，对图像质量有要求，但将繁琐流程转化为自然对话，展现了多模态AI助手的实用潜力。

热心网友

05.23

AI资讯

OpenAI 2026年第一季度营收达57亿美元领先Anthropic

OpenAI在2026年第一季度营收达57亿美元，较竞争对手Anthropic同期高出约10亿美元。其收入主要来自ChatGPT消费级产品，付费用户持续增长，但业务重心正转向企业服务。尽管营收亮眼，公司调整后营业利润率仍为负值，面临显著亏损。为应对竞争与盈利压力，OpenAI正加速推进上市进程，最早或于今年9月进行IPO。

热心网友

05.23

AI资讯

微软Fara1.5浏览器AI模型发布任务成功率72%超越OpenAI

微软发布专为浏览器设计的Fara1 5系列AI智能体模型，包含4B、9B和27B三个版本。该模型基于Qwen3 5构建，通过观察浏览器截图输出操作指令，采用“观察—思考—行动”循环决策。在Online-Mind2Web基准测试中，Fara1 5-27B任务成功率达72%，超越多款主流模型。其训练使用了约200万条混合数据，并设计了在信息缺失、任务模糊或执行不

热心网友

05.23

AI资讯

OpenAI破解80年科学难题新模型获顶刊认可

OpenAI一款未发布的通用推理模型独立推翻了悬置近80年的埃尔德什“平面单位距离猜想”。模型未经专门训练，运用代数数论构造反例完成证明。此前OpenAI曾因虚假突破受批评，但此次成果获包括原批评者在内的多位顶级数学家背书，被视为AI自主产出重要数学发现的标志性进展。

热心网友

05.22

热门推荐

AI教程

Cursor AI代码编辑器：智能编程工具的功能与使用指南

在追求极致效率的现代软件开发中，一款名为Cursor的AI代码编辑器正引领着开发范式的变革。它被定义为“面向未来的IDE”，其核心理念清晰而有力：将人工智能深度无缝地集成到编码工作流的每一个步骤，为开发者创造一种前所未有的“AI结对编程”体验。 Cursor sh应用场景那么，这款AI驱动的编辑器

热心网友

05.23

AI教程

美图WHEE-WHEE AI视觉创作工具使用指南与功能详解

在众多AI图像生成工具中，WHEE凭借其精准的产品定位与持续的功能迭代，正成为越来越多设计师和内容创作者的首选工具。它专注于打造高品质的AI视觉素材生成器，核心使命就是帮助用户快速、高效地获得可直接使用的优质图片素材。那么，这款AI绘图工具究竟有哪些核心优势？下面我们从其关键特性与功能设计进行深入

热心网友

05.23

AI教程

NightCafe Creator AI艺术生成器：手机创作数字绘画

在AI绘画工具不断涌现的当下，一款名为NightCafe Creator的应用以其全面的AI艺术生成能力脱颖而出。它不仅是一个简单的图片处理工具，更是一个融合了多种前沿人工智能技术的创意平台，帮助用户轻松实现从构思到成品的艺术创作。 NightCafe Creator是什么？ NightCafe C

热心网友

05.23

web3.0

加密市场恐慌蔓延比特币以太坊为何领跌山寨币

近期加密货币市场受到宏观经济不确定性及流动性紧缩影响，比特币(BTC)、以太坊(ETH)以及多种山寨币出现明显下行走势，市场情绪趋于谨慎。比特币近期走势分析比特币的价格近期表现如何？简单来说，它跌破了几个市场公认的关键支撑位，而且伴随交易量的放大。这种放量下跌的信号，往往意味着多空分歧加剧。无论

热心网友

05.23

科技数码

蔡司6月2日发布新品镜头技术迎来重大突破

蔡司宣布将于6月2日发布一款新镜头，并称其为镜头技术的重大突破，标志着全新纪元的开启。官方仅公布了产品剪影，但措辞暗示其可能带来根本性的技术升级，例如全新光学结构、先进镀膜或对焦系统改进。具体细节需待发布日揭晓。

热心网友

05.23