GPT-5为何频繁提及哥布林？背后原因深度解析

首页

热心网友

转载

2026-05-17

去年夏天，DeepSeek V3.1模型曾因一个神秘的“极”字Bug引发热议。简单来说，这个模型在输出时，总会莫名其妙地插入一个“极”字，有趣的是，就连它的英文回复里也会出现对应的“extreme”。

当时，网友们戏称这是“极你太美”Bug，或者干脆叫它“极”速版DeepSeek。事后研究者的推测是，这个“极”字源于训练数据中一组未被清洗干净的“极长数组”。在强化学习阶段，模型把它学成了一种特殊的终止符或语言切换标记。换句话说，模型没坏，它只是太“认真”了——认真学了一个错误的习惯。

这件事在AI圈引发了一个更深层的讨论：大模型的训练过程如此复杂，我们真的能完全预测它会学到什么吗？

无独有偶，OpenAI的模型最近也曝出一个类似但更“奇幻”的问题：它的模型，似乎迷上了“哥布林”（goblin）。就在今天，OpenAI官方发布了一篇博客，专门解释了“哥布林究竟从何而来”，连奥特曼本人也在X上转发了这个消息。

消息一出，自然引发了网友们的广泛调侃和创作热情。

甚至有人打趣说要发起“拯救哥布林”行动。

那么，这些哥布林到底是从哪儿冒出来的呢？

根据OpenAI的官方解释，从GPT-5.1版本开始，模型在回答各类问题时，使用“goblin”（哥布林）这个词的频率就越来越高。

起初，这只是偶尔为之：一个“little goblin”出现在某个技术比喻里，既不影响回答的准确性，甚至还带点讨喜的俏皮感。

但随着模型版本的迭代，哥布林不再满足于偶尔露个脸，它们开始成群结队地出现。它的“同伴”们也陆续加入——gremlin（小妖精）、troll（巨怪）、ogre（食人魔）等词汇的出现频率也随之攀升。

到了GPT-5.5及其驱动的代码助手Codex的早期测试阶段，这个习惯已经明显到让工程师们无法再视而不见。

这已经超出了“风格”的范畴，成了一种需要被关注的异常行为。于是，OpenAI的工程师们开始着手调查：这些哥布林，到底是从哪个数据缝隙里钻出来的？

“书呆子”性格的意外副作用

排查工作并不轻松。这类行为没有导致指标瞬间崩盘的“爆炸时刻”，它的渗透是缓慢而持续的，就像温水煮青蛙。

工程师们首先注意到了一个统计上的异常：“goblin”这个词在不同用户场景中的分布极不均匀。

数据显示，虽然“Nerdy”（书呆子）这个人格选项只占ChatGPT全部响应的2.5%，但它却贡献了所有包含“goblin”词汇回复的66.7%。

这是一个强烈的信号。“Nerdy”是ChatGPT人格定制功能里的一个选项，其对应的系统提示大致是：你是一个不妥协的书呆子型AI导师，热情地推崇真理、知识与批判性思维。你必须用语言的俏皮感来打破那些自以为是的姿态。世界是复杂而奇异的，而这种奇异性必须被承认、分析和享受。

这段提示词部分解释了“Nerdy”模式为何容易产生奇特的比喻：它被明确要求“玩弄语言的俏皮感”。但问题的核心更深一层：为什么训练“Nerdy”个性，会特别导致“哥布林”这类怪物词汇的涌现？

奖励信号的意外偏好

答案藏在强化学习的奖励机制里。

OpenAI工程师动用了代码助手Codex，对训练过程中的强化学习输出样本进行了大规模比对。他们将含有“goblin”或“gremlin”的输出，与完成相同任务但没有这些词的输出并排放置，然后检查各个奖励模型的打分差异。

结果非常清晰：负责激励“Nerdy”性格的奖励信号，在76.2%的数据集中，都对含有怪物词汇的输出给出了更高的分数。

换句话说，有人在训练时无意间告诉模型：用哥布林打比方，是一件“书呆子”会做、并且值得鼓励的事。

这本身可以解释为什么Nerdy模式里充满了精灵和小妖精。但还有一个更棘手的问题悬而未决：为什么在没有使用Nerdy模式的普通对话里，哥布林的出现频率也在同步增加？

强化学习的“泄漏”效应

这就来到了整个故事最值得深思的部分。

工程师们追踪了训练过程中，带Nerdy提示词和不带Nerdy提示词两组样本里“goblin”词汇的出现频率变化，发现了一个关键规律：两组数据中的哥布林数量几乎同步增长。

Nerdy模式里哥布林变多，普通模式里哥布林也同步变多，增幅甚至几乎相同。

这揭示了强化学习的一个特性：它不能保证在某个特定条件下学到的行为习惯，会整整齐齐地待在那个条件的边界之内。在Nerdy模式下被反复强化的“喜欢用怪物打比方”这个习惯，通过某种内部表征的迁移，渗进了模型更广泛的表达方式之中。

打个比方，这就像你训练一个厨师在做螺蛳粉时多放红油，结果他发现，在做所有带汤的粉丝类食物时，都开始下意识地多舀一勺红油。

至此，整个因果链变得清晰：训练“Nerdy”人格 → 奖励信号意外偏爱怪物词汇 → 强化学习将这种风格固化 → 风格通过内部表征迁移，扩散到非Nerdy的普通对话 → 最终，哥布林蔓延至全模型。

解决方案与舆论狂欢

在问题的根源被彻底找到之前，工程师们采取了一个治标的办法：直接在Codex的系统提示里写下明确的禁令。

被公开的内部提示词写道：“永远不要谈论哥布林、小妖精、浣熊、巨怪、食人魔、鸽子或其他动物和生物，除非这与用户的问题有绝对和明确的直接关联。”

值得注意的是，这条规则在提示词里被反复强调了多次。显然，工程师们不太相信只写一遍就能让模型老老实实遵守。

该博客发布后，在互联网上引发了一场欢乐的狂欢。在本文写作时，相关话题甚至冲上了X的热搜榜，同时也是HackerNews上排名第一的热议话题。

就连官方也下场一起玩梗。例如，ChatGPT最新的X账号直接把上述禁令放进了个人介绍里：

该账号还引用了《霍比特人》的经典台词：“Down, down to Goblin-town you go, my lad!”（下去，下到哥布林镇去吧，小子！）

OpenAI的CEO Sam Altman则发帖调侃道：“开始训练GPT-6，你可以用整个算力集群。额外补贴：加倍的哥布林。”

结语

DeepSeek的“极”字和OpenAI的“哥布林”，表面上是两件独立的趣闻，但它们指向的其实是同一个根本性问题。

现代大模型的训练规模之大、数据链路之长、优化目标之复杂，使得任何一个环节的细小偏差，都可能在模型内部被悄悄放大、固化，乃至“传染”给原本毫不相关的行为。

DeepSeek的案例里，是一批没被清洗干净的训练数据，让模型误将一个汉字当作了终止信号。OpenAI的案例里，则是一个奖励模型对“怪物词汇”的无意偏爱，让精灵和哥布林悄悄渗透进了几乎所有的对话。

更值得关注的细节是：在OpenAI的案例中，工程师们最初并没有立刻发现异常，因为“一个哥布林”本身看起来甚至挺有趣，算不上问题。直到这种行为已经扩散到无法忽视的程度，才触发了系统性的调查。

这意味着，那些看似“无害”的奇怪习惯，也可能成为潜在的危险信号。它们不会触发任何常规的告警指标，只会一代一代悄悄积累，直到某一天，你才猛然意识到，自己的模型已经在某条小路上走了很远、很偏。

来源:https://www.163.com/dy/article/KRPNU4TR0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：应县木塔数字复原获国际大奖 AI技术助力古建保护出海下一篇：华人文化投资的曲多多音乐授权平台