OpenAI新突破：用“小型电路”训练稀疏模型解密语言机制_AI热点日报

OpenAI新突破：用“小型电路”训练稀疏模型解密语言机制

类型：热点整理2025-11-21

在人工智能领域，大语言模型的内部运作机制长期被视为“黑箱”，即便是专业研究人员也难以完全掌握其计算逻辑。为破解这一难题，OpenAI近期发布了一项新研究，通过训练结构更简单的小型稀疏模型，探索提升模

在人工智能领域，大语言模型的内部工作机制长期被视为"黑箱"——即便是专业研究人员也难以完全把握其计算逻辑。为破解这一难题，OpenAI近期发布了一项突破性研究，通过训练结构更精简的稀疏模型，探索提升模型可解释性的可行路径。这类模型的神经元连接更少，计算过程更加透明，为理解模型行为提供了全新视角。

与传统稠密模型不同，OpenAI设计的稀疏模型在训练阶段强制大部分权重为零，限制神经元之间的连接数量。这种结构使得每个神经元仅与下一层的少数神经元交互，形成更清晰的计算路径。研究团队发现，通过剪枝技术保留执行特定任务所需的最小神经单元子集，可以提取出独立且易于理解的"电路模块"。例如在代码补全任务中，模型能准确识别字符串的起始引号类型，并在结尾复现相同符号，其计算过程可分解为四个清晰步骤：编码引号类型、检测任意引号、定位前序引号、复制引号类型。

论文核心贡献者指出，稀疏模型的独特优势在于其解耦性。在Python代码的引号匹配任务中，模型仅需五个残差通道、两个多层感知机神经元以及少量注意力机制通道即可完成任务。实验表明，移除其他部分后，该电路仍能独立运行，且删除关键连接会导致功能失效。这种模块化设计不仅降低了理解难度，还为调试模型错误提供了直接切入点。

研究团队进一步验证了稀疏模型在变量绑定等复杂任务中的表现。例如在跟踪变量类型时，模型通过注意力机制将变量名从定义位置复制到使用位置，形成可追溯的信息流。尽管部分电路仍难以完全解析，但研究人员已能提供阶段性解释，并预测模型行为模式。这种部分可解释性为后续研究奠定了基础。

当前研究仍存在局限性。稀疏模型的规模远小于前沿大模型，且大部分计算过程尚未被解释。为突破瓶颈，OpenAI提出两条优化路径：一是从现有稠密模型中提取稀疏电路，提升部署效率；二是开发面向可解释性的专用训练技术，降低资源消耗。尽管无法保证该方法适用于所有场景，但早期实验结果已展现出潜力——通过扩大模型规模，可在不显著牺牲性能的前提下提升可解释性。

该研究为理解神经网络提供了新范式。相比传统的事后分析方法，稀疏模型从设计阶段便融入可解释性考量，为构建更透明、更可控的AI系统开辟了道路。相关论文已公开，详细技术方案可参阅OpenAI最新文档。

来源：https://www.itbear.com.cn/html/2025-11/1025017.html

延伸阅读

补充最近整理过的热点入口。

OpenAI新突破：用“小型电路”训练稀疏模型解密语言机制

相关热点

延伸阅读