首页 游戏 软件 资讯 排行榜 专题
首页
AI
OpenAI开源Safeguard模型演示:完整呈现AI思维链,优化内容分类

OpenAI开源Safeguard模型演示:完整呈现AI思维链,优化内容分类

热心网友
24
转载
2025-10-31

10月30日科技媒体NeoWin发布消息称,OpenAI于昨日(10月29日)推出两款开源权重模型gpt-oss-safeguard-120b和gpt-oss-safeguard-20b。这两款模型专门设计用于根据用户提供的策略对内容进行推理、分类和标记。

这标志着继今年早些时候发布gpt-oss系列推理模型后,OpenAI在开源领域的又一重要布局。新模型是此前gpt-oss模型的微调版本,同样遵循宽松的Apache 2.0许可证,允许任何开发者免费使用、修改和商业部署。

与传统的“一刀切”式安全系统不同,gpt-oss-safeguard将定义安全边界的权力交还给了开发者。其核心机制在于,模型无需在训练阶段硬编码规则,能够在推理阶段直接解释并应用开发者提供的安全策略。

gpt-oss-safeguard的核心工作机制是,在模型推理(即实际运行)阶段接收两项输入:一项是开发者自定义的安全策略,另一项是需要分类的内容(如用户消息或AI生成内容)。

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

为了提升透明度和可用性,模型支持完整的“思维链”(Chain-of-Thought, CoT)输出,能够展示其得出结论的每一步推理过程。

这种设计允许开发者随时按需调整策略,确保分类结果与特定应用场景保持一致。同时,透明的决策过程也让开发者能清晰地追溯和理解模型的判断逻辑。

与传统安全分类器相比,gpt-oss-safeguard的最大优势在于其灵活性。传统分类器通常基于包含数千个标注样本的大型数据集进行训练,策略一旦固化,更新就需要重新收集数据并训练模型,过程耗时耗力。

而gpt-oss-safeguard直接在推理时解读策略,无需重新训练即可快速适应新规则。这种方法源于OpenAI的内部工具Safety Reasoner,它通过强化学习微调技术,学会了对安全策略进行推理和解释。

OpenAI强调,这种方法在四种特定场景下尤其有效:

当潜在风险是新兴或快速演变的,该模型能支持策略的快速适应。

对于那些领域高度细微、传统小型分类器难以处理的场景,它表现更佳。

当开发者缺乏足够样本来为平台上的每种风险训练高质量分类器时,该模型提供了有效解决方案。

在那些对生成高质量、可解释标签的重视程度超过低延迟的场景中,它也是理想选择。

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

当然,gpt-oss-safeguard模型也并非完美,OpenAI提示开发者需要注意两个主要的权衡:

第一,如果开发者有足够的时间和数据(如数万个已标注样本来训练一个传统的分类器,那么在处理复杂或高风险任务时,传统分类器的精度可能仍然会超越gpt-oss-safeguard。换言之,追求极致的精确度时,定制训练的系统或许是更优选项。

第二,gpt-oss-safeguard的运行速度较慢且资源密集,让其在大型平台上对所有内容进行实时扫描变得更具挑战性。

这两款模型目前已在Hugging Face平台上开放下载。

附上参考地址

Introducing gpt-oss-safeguard

技术报告

Hugging Face

来源:https://www.ithome.com/0/893/472.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

原PyTorch成员爆料:为何AI巨头坚持选择PyTorch开发大模型?
AI
原PyTorch成员爆料:为何AI巨头坚持选择PyTorch开发大模型?

大家可能没注意到,现在每一款与你互动的Chatbot,背后运行的都是 PyTorch。可以说,它已经成为了主流LLM研发链路中事实上的标准。 编辑 | 云昭出品 | 51CTO技术栈(微信号:blo

热心网友
10.31
OpenAI为Sora新增功能:宠物、原创角色与物体嵌入AI视频
AI
OpenAI为Sora新增功能:宠物、原创角色与物体嵌入AI视频

10 月 30 日消息,据科技媒体 engadget 今天报道,OpenAI 现已为旗下 Sora 更新了角色出镜功能,可让用户将自己的宠物、原创人物甚至物体添加进 AI 视频。据介绍,这项功能已

热心网友
10.31
OpenAI与Adobe合作:用ChatGPT聊天直接修图
AI
OpenAI与Adobe合作:用ChatGPT聊天直接修图

10 月 29 日消息,Adobe 昨天在洛杉矶举行 2025 年度 MAX 大会,宣布与 OpenAI 达成新一轮合作,将旗下 Photoshop 和 Adobe Express 整合进 Cha

热心网友
10.31
OpenAI开源Safeguard模型演示:完整呈现AI思维链,优化内容分类
AI
OpenAI开源Safeguard模型演示:完整呈现AI思维链,优化内容分类

10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safegua

热心网友
10.31
OpenAI拟2027年上市:史上最大IPO或突破万亿美元估值
AI
OpenAI拟2027年上市:史上最大IPO或突破万亿美元估值

10 月 30 日消息,北京时间今天上午,路透社援引三位知情人士消息称,OpenAI 正在为 IPO 做准备,估值最高可能达到约 1 万亿美元(注:现汇率约合 7 1 万亿元人民币)。这次将是史上

热心网友
10.31

最新APP

儿童宝宝连连看
儿童宝宝连连看
休闲益智 10-31
NBA2K20手游
NBA2K20手游
体育竞技 10-31
装甲纷争决定
装甲纷争决定
飞行射击 10-31
掘地求升2正
掘地求升2正
休闲益智 10-31
我功夫特牛
我功夫特牛
休闲益智 10-31

热门推荐

冒险岛枫之传说五转V2技能解析:高效加点与实战指南
手游攻略
冒险岛枫之传说五转V2技能解析:高效加点与实战指南

在冒险岛枫之传说中,五转v2技能备受玩家关注。这些技能为角色带来了全新的战斗体验和强大的实力提升。首先,五转v2技能在伤害输出方面有了显著增强。以某些职业为例,新技能拥有更高的基础

热心网友
10.31
欧意交易官网入口:掌握数字资产交易动态,官方平台便捷登录指南与策略解析
web3.0
欧意交易官网入口:掌握数字资产交易动态,官方平台便捷登录指南与策略解析

数字资产平台的门槛与门槛 前两天我翻手机相册,看到去年截的一张图——当时某个新币上线,平台服务器直接崩了半小时,页面卡在加载界面转

热心网友
10.31
理想召回MEGA电动车:电池热失控隐患与安全解决方案
科技
理想召回MEGA电动车:电池热失控隐患与安全解决方案

10月31日消息,北京理想汽车有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,主动向国家市场监督管理总局备案了召回计划。按照最新公告,召回编号S2025M017

热心网友
10.31
Zookeeper与Kafka高可用集群部署:保姆级实战指南
科技
Zookeeper与Kafka高可用集群部署:保姆级实战指南

今天分享一下如何搭建一套zookeeper+Kafka的消息队列集群。虽然Kafka在新版本已经可以不通过zookeeper就可以实现高可用,但是企业中大多数还是zookeeper+Kafka这个黄

热心网友
10.31
T+1是什么意思?币圈T+1是什么意思?
web3.0
T+1是什么意思?币圈T+1是什么意思?

​本文旨在清晰解释“T+1”这一常见的交易结算制度,并对比其在传统金融市场与数字资产领域的不同应用。理解这一核心概念,有助于投资者更好地规划资金和制定交易策略。

热心网友
10.31