22岁开发者开源Mythos架构解析MoE与注意力机制设计

首页

热心网友

转载

2026-05-19

传闻中因风险过高而被封存的Mythos模型，如今竟以开源形式“重生”。一个名为OpenMythos的项目，正尝试整合当前公开的研究成果与业界对Claude Mythos架构的主流推测，致力于复现这一传说中的模型。

其核心架构是一个集成了MoE路由机制的循环深度Transformer。简而言之，该设计让同一组模型权重在推理过程中循环工作，但每次循环会通过路由机制激活不同的“专家”路径，并在一个内部的潜在空间内完成所有迭代计算，从而实现更深层次的推理。

已有研究表明，这种创新的模型架构仅需传统模型一半的参数量，即可达到同等的性能表现。

不堆参数，堆循环

将这些技术拼图整合起来的是22岁的Kye Gomez，他同时也是Swarms智能体框架的创始人。

他所设计的这套循环深度Transformer架构，其精髓主要体现在以下三个方面：

允许同一组模型权重最多循环执行16次；
每次循环会激活不同的专家路径；
整个推理过程在潜在空间内闭环完成，不对外输出任何中间结果。

这三者协同作用，其核心思想可以概括为一句话：让模型对一个问题进行“多轮深度思考”，远比单纯地堆叠更多参数要高效。

过去两年，行业的普遍做法是堆叠上百层不同的Transformer层，每层学习不同的特征，导致模型参数量爆炸式增长。而循环深度Transformer则反其道而行，它仅使用少数几层，但允许这些层反复循环运行（最高可达16次），每一轮的思考都建立在前一轮结果的基础上，不断深化。

你可能会疑惑：让同一组权重运行16遍，这不是在浪费计算资源吗？

关键在于，每次循环所激活的“专家”是不同的。循环块内部采用了混合专家层，MoE路由器在每一轮中都会动态选择激活不同的专家子集。这套MoE设计借鉴了DeepSeek-MoE的思路：使用大量细粒度的路由专家，并配合少量始终处于激活状态的共享专家。

Gomez对此有一个精妙的比喻：MoE机制提供了领域知识的广度，而循环机制则赋予了推理过程的深度。

具备了广度和深度，还需要确保循环过程的稳定性，避免思维“跑偏”或发散。来自UCSD和Together AI的一篇新论文《Parcae: Scaling Laws For Stable Looped Language Models》提出的LTI稳定循环注入技术，恰好解决了这一关键问题。

实验数据极具说服力：使用7.7亿参数的循环深度Transformer，在多项基准测试上的性能追平了13亿参数的标准Transformer。参数量减少了近一半，效果却保持一致。

最后一块关键技术拼图是“连续潜在空间推理”。这16轮推理全部在模型内部的隐藏状态向量中闭环完成，不生成任何中间的文字标记。直到最后一轮循环结束，模型才一次性输出最终答案。

这与我们熟悉的思维链推理模式截然不同。思维链是“想一步，输出一步，再基于输出想下一步”，中间过程完全暴露。而循环深度Transformer则是“在内部潜在空间中反复琢磨16遍，然后才给出最终结论”，整个深度推理过程完全内化。

循环，不是重复

为了验证这种架构的有效性，Kye还引用了俄亥俄州立大学的一篇相关论文，其中对循环Transformer架构进行了两个关键实验。

第一个实验关乎系统性泛化能力。面对训练时从未见过的知识组合问题，循环Transformer在推理时依然能够正确回答，而标准Transformer则直接失败。这证明循环机制并非简单的重复计算，而是真正实现了更深层次的信息整合与思考。

第二个实验关乎深度外推能力。在训练时只让模型学习20步的推理链，但在测试时直接给出需要30步推理的复杂问题。循环Transformer的应对策略很直接：在推理时自动增加内部循环轮数。而标准Transformer面对这种超出训练范围的题目，性能则大幅下降。

这些实验结果指向一个重要结论：当前的大型语言模型在预训练中已经记忆了海量事实知识，真正的瓶颈在于知识的灵活组合与复杂运用。模型往往难以将已知的分散事实有效地串联起来，以解答一个新颖的复合型问题。而循环推理机制，似乎为模型免费解锁了这种组合推理与深度思考的能力。

如果这些发现被广泛证实，那么AI模型扩展的主流方向，可能会从“训练参数量更大的模型”逐渐转向“让现有模型在推理时进行更多轮、更深度的思考”。

至此，Anthropic的Mythos模型是否真的采用了这套具体架构，似乎已不那么重要。关于循环Transformer的潜力与猜想，已经吸引了学术界和工业界的广泛关注。更多的理论验证与实验探索，想必已在路上。

该项目代码已在GitHub平台开源。

参考链接：[1] [2] [3]

来源:https://www.163.com/dy/article/KQVJ5H5P0511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Anthropic编程大师课教你正确掌握Vibe Coding技巧下一篇：AI替代员工是经济骗局吗拆解自动化背后的真实成本

相关攻略

业界动态

DeepSeek回应串台BUG 特殊字符引发幻觉不涉隐私

用户输入特定字符导致DeepSeek模型生成异常回复，引发隐私泄露担忧。官方澄清此为特殊字符触发的模型幻觉问题，与数据安全无关。团队将通过针对性训练修复这一缺陷，并重申对数据安全与用户体验的重视。此事提醒开发者需持续优化模型以应对复杂输入，用户则应理性看待此类技术性异常。

热心网友

05.19

Gemma 4到DeepSeek V4：近期大语言模型架构重大演进盘点

许多开发者在实际使用大语言模型时，都面临一个共同的痛点：无论模型的上下文窗口（Context Window）设计得多大，似乎总是不够用，长文本处理能力始终是瓶颈。这背后折射出一个核心矛盾：用户渴望模型具备更强的“记忆力”和更连贯的对话能力，因此希望上下文越长越好。然而，对模型架构而言，处理长上下文

热心网友

05.19

22岁开发者开源Mythos架构解析MoE与注意力机制设计

传闻中因风险过高而被封存的Mythos模型，如今竟以开源形式“重生”。一个名为OpenMythos的项目，正尝试整合当前公开的研究成果与业界对Claude Mythos架构的主流推测，致力于复现这一传说中的模型。其核心架构是一个集成了MoE路由机制的循环深度Transformer。简而言之，该设计

热心网友

05.19

业界动态

DeepSeek团队27篇论文揭秘：揭秘AI多面手背后的技术实力

过去一年，关于DeepSeek核心人才流动的讨论从未间断。从早期的罗福莉，到初代大模型作者王炳宣、多模态骨干阮翀、R1核心贡献者郭达雅，这些名字的相继离开，难免引发外界疑虑：核心作者接连被挖，DeepSeek赖以成名的技术壁垒是否会因此松动？要回答这个问题，或许需要换一个视角。我们决定抛开传闻，直

热心网友

05.19

业界动态

腾讯云Hy3与DeepSeek-V4-Pro模型免费公测即将结束转为商用

腾讯云宣布其智能体开发平台中的Hy3preview与DeepSeek-V4-Pro模型将于2026年5月27日结束免费公测，转为商用。公测期间模型凭借强大能力获得广泛认可，经持续优化已达到更成熟阶段。后续平台将继续升级，以提供更可靠的服务体验。

热心网友

05.19

热门推荐

业界动态

学生上班族剃须刀选购指南十大品牌性价比排名推荐

市面上剃须刀品牌众多，选购时易遇剃不净、伤肤或续航短等问题。综合用户反馈与测评数据，未野在剃净度与舒适感上表现突出，兼容多种肤质与胡型。其他如VTT、京东京造等品牌也各有特点。选购需结合预算与需求，关注动力、刀头材质、贴合度等核心指标，根据自身胡须粗细、脸型和使用场景做出。

热心网友

05.19

业界动态

大眼橙C3 Pro投影仪发布：1080P高清570CVIA流明补贴价999元

大眼橙C3Pro投影仪发布，具备1080P分辨率和570CVIA流明亮度。采用全封闭光机与高透面板，实现高对比度。集成双模传感系统，支持快速自动对焦与梯形校正。设计包含云台支架与触控夜灯，搭载旗舰芯片并支持Wi-Fi6。凭借以旧换新补贴，到手价可低至999元，性价比突出。

热心网友

05.19

业界动态

机械师GTR迷你主机R7 8745H版16GB内存1TB硬盘售价3999元

机械师GTR迷你主机推出搭载R78745H处理器的新配置，配备16GB内存和1TB固态硬盘，售价3999元。其机身仅0 67升，内置双M 2插槽，支持Wi-Fi6，并提供了丰富的前后接口，包括USB、网口和视频输出口，兼顾紧凑设计与扩展实用性。

热心网友

05.19

业界动态

大学毕业典礼AI演讲引争议学生嘘声表达不满

美国多所大学毕业典礼上，演讲嘉宾对人工智能表达乐观时屡遭台下嘘声。前谷歌CEO施密特将AI比作“火箭船座位”，却因嘘声中断发言并承认听众的恐惧。其他高校类似场景中，AI被称为“下一场工业革命”或行业变革力量时，同样引发不满。毕业生对AI冲击就业市场的焦虑，直接转化为现场集体情绪宣泄。

热心网友

05.19

业界动态

2026年宠物空气净化器选购指南：莱克C9、霍尼韦尔H-Cat与舒乐氏Umi深度对比

选择宠物空气净化器需关注风道结构、底部吸口和除味系统。二代增压风道比传统格栅吸力更集中，可高效吸附浮毛；底部360°环吸口能清理地面毛发；复合净化系统可持久除味。不同产品各有侧重，如莱克C9适合多猫家庭，霍尼韦尔H-CatHub侧重智能体验，舒乐氏Umi也具备相应功能。

热心网友

05.19