Claude Mythos架构开源解析 22岁开发者独立复现DeepSeek方案
近期人工智能领域发生了一起引发行业广泛关注的突破性事件。Anthropic公司高度保密的Claude Mythos核心架构,竟被一位22岁的年轻创业者通过公开资料,运用第一性原理完整推导并成功复现。

更令人瞩目的是,这位名为Kye Gomez的初创公司CEO,将其复现项目——OpenMythos——进行了全面开源。这一举动迅速在技术社区引发了关于其精妙架构设计的热烈讨论。



相关的技术复现解析吸引了近百万的浏览量,众多开发者和研究者纷纷惊叹于Mythos架构背后设计的巧妙与高效。



不依赖参数堆叠,实现16次「循环思考」
那么,OpenMythos所揭示的核心技术秘密究竟是什么?根据Kye Gomez的深入分析,Claude Mythos的核心并非一个参数规模更大的Transformer模型,而是一种被称为“循环深度Transformer”的创新架构。
简而言之,这种架构不再单纯追求参数量的“堆料”,而是让同一套模型权重,在单次前向传播过程中,最多可以循环执行16次计算。

传统的大模型扩展思路,类似于不断加高建筑楼层。100层不够就建200层,参数越多,模型越庞大,对显存容量和训练成本的要求也呈指数级上升。
然而,RDT架构彻底改变了这一范式:它不再追求盖更高的楼,而是让模型在同一个“计算场地”上反复进行深度推演。模型仅有一个核心计算模块,但这个模块会被反复调用。每完成一次循环,模型的隐藏状态就更新一次,相当于模型“多进行了一步深度思考”。其关键在于,所有这些“思考”过程都在连续的潜在空间中进行,无需像传统的思维链技术那样,每一步都必须输出可见的文本标记。
这绝非简单的重复计算,而是一种高效的迭代式深度推理机制。

架构全面解析:三段式精巧设计
整个OpenMythos的架构可以被清晰地划分为三个逻辑阶段:序曲(Prelude)→ 循环核心(Recurrent Block)→ 终章(Coda)。
其中,序曲和终章是标准的Transformer层,各执行一次。真正的技术玄机隐藏在中间的“循环块”,它最多可循环16次。其状态更新规则可以概括为以下公式:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
公式中的e代表经过序曲编码后的原始输入。在每一步循环中,这个原始信息都会被重新注入到计算中,从而有效防止模型在漫长的内部迭代过程中“思维跑偏”或遗忘初始问题,确保了推理的准确性和一致性。

MoE拓展知识广度,循环机制深化思考
单一的循环机制主要增强了模型推理的“深度”,但如何同时实现知识的“广度”覆盖呢?答案在于混合专家系统的集成。
OpenMythos在循环核心的每个前馈网络层,都替换成了MoE层,其设计参考了DeepSeek-MoE的先进思路:采用大量细粒度的专家网络;每个输入标记仅激活其中一小部分专家;同时设置少量“共享专家”始终保持激活状态,以承载跨领域的通用知识与能力。
最精妙的设计在于,随着隐藏状态h_t在循环中不断演化,路由机制在每一次循环深度上,都可能动态选择不同的专家子集。这意味着,尽管模型权重是共享的,但每一次循环所激活的计算路径却可以完全不同。可以说,MoE机制提供了横向的知识广度与多样性,而循环机制则提供了纵向的、递进式的思考深度。

在注意力机制方面,项目默认采用了源自DeepSeek-V2的“多潜在变量注意力”技术,它能将键值缓存压缩为低秩的潜在变量,在大规模生产部署场景下,有望实现10-20倍的KV缓存显存节省,显著提升推理效率。
此外,为了确保循环过程的稳定性和可控性,架构中还引入了三项关键机制:LTI约束注入(强制谱半径小于1以防止状态发散)、自适应计算时间(允许模型根据复杂度在不同位置提前停止计算)、以及深度级LoRA适配器(让每次迭代都能进行独立且灵活的行为微调)。整套设计环环相扣,精密程度令人叹服。
7.7亿参数媲美13亿,参数效率实现翻倍
这种创新架构的优势并非停留在理论层面。此前,来自Parcae研究团队的实验数据已经证实:一个仅包含7.7亿参数的循环模型,在同等训练数据条件下,能够达到13亿参数标准Transformer模型在下游任务上的性能表现。
换言之,仅用一半左右的参数量,就完成了同等水平的工作。参数效率的提升是显著且可量化的。

这对整个AI行业意味着什么?首先,对于消费级硬件和广大开发者而言,这无疑是一个重大利好。过去想要运行一个性能尚可的大型模型,没有高端专业显卡几乎难以实现。而现在,推理深度可以通过“以时间换空间”的策略来实现——你不再需要巨大的显存,只需要让模型进行更多次的循环“思考”。
更深层次的影响在于,它可能正在悄然改写AI模型的扩展定律。以往的竞争很大程度上是参数规模、算力集群规模和能源消耗的比拼。未来的规则或许将转变为:最强的模型,未必是参数最多的,但很可能是“思考”次数最多、推理最深的那一个。当然,这目前更多是一种基于理论推演和初步实验的展望,其实际效果与潜力仍需通过更大规模的工程实践来验证。

高中毕业即投身创业的CEO
完成这项惊人技术复现的Kye Gomez,是Swarms公司的创始人,此前还曾领导过Agora Labs。他的研究兴趣高度聚焦于大规模多智能体系统、替代性模型架构以及多模态模型等前沿方向。

根据其个人公开信息显示,Kye Gomez在高中毕业后便直接投身于创业浪潮。

在2024年间,他同时担任了三家不同领域公司的联合创始人或CEO,构建了一个以“APAC”为品牌的创新生态体系,业务范围覆盖了人工智能深科技、媒体、食品科技等多个前沿与交叉领域。

闭源实验室的技术护城河,依然坚固吗?
整起事件最令人震撼之处,或许并非架构本身有多么复杂难懂。而是一个22岁的创业者,仅凭借公开的学术论文和第一性原理的严谨推演,就将Anthropic保密近一年的核心技术黑箱成功复现,并慷慨地开源给全球技术社区,使得更多研究者和开发者能够用几行代码一探顶尖架构的究竟。
这释放出一个强烈的行业信号:闭源实验室在核心架构创新上的领先优势,其技术壁垒可能正在以超乎想象的速度变薄。英国《金融时报》的最新报道中,Anthropic的联合创始人Dario Amodei甚至预测,中国的研究团队将在12个月内完全复刻出具备Claude Mythos级别能力的大语言模型。

面对外界关于大模型性能是否已触及天花板的广泛质疑,Amodei用一句富有诗意的话回应道:“彩虹没有尽头,只有彩虹本身。”他强调,目前完全看不到人工智能技术发展的放缓迹象。
当核心的架构设计能够被外界独立推导并成功复现时,真正的竞争护城河或许就不再仅仅是技术原理本身,而是高质量的数据、强大的工程化能力、繁荣的开发者生态以及持续创新的速度。这场由开源社区和独立研究者共同推动的“架构透明化”浪潮,正在为人工智能的未来发展打开全新的想象空间与可能性。
相关攻略
DeepSeek启动融资,阿里因追求深度生态绑定而退出,腾讯则以小额财务投资有望入局。这折射出两家巨头迥异的AI战略:阿里倾向于通过投资进行技术整合与控制,腾讯则保持开放生态,不干预技术路线。与此同时,字节选择重金自研,全力押注C端入口。三家公司的不同选择源于各自的企业基因与资源
近日,AI开发者社区与多个技术论坛中,一则关于DeepSeek API模型能力疑似升级的消息引发了广泛关注。多位开发者在社交媒体及技术交流群中反馈,通过API调用的模型参数出现了显著变化:上下文处理长度从原先的128K大幅提升至一百万tokens,同时知识截止日期也从2024年更新至2025年5月。
DeepSeek近期在GitHub上动作频频,技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后,团队近日又重磅开源了全新的Tile Kernels代码库,并对DeepEP专家并行框架进行了重要版本迭代,发布了性能大幅提升的DeepEP V2。 Tile Kernels
北京时间4月24日,《金融时报》的一则报道,揭开了AI明星公司DeepSeek首次寻求外部融资的幕后考量。与外界想象中为“烧钱”续命不同,这次融资的核心目的颇为独特:留住人才。 图注:DeepSeek 据两位接近交易的人士透露,DeepSeek正在与一小群战略投资者接触,洽谈新一轮融资。这轮融资如果
4月24日,AI行业迎来重大突破:深度求索公司正式发布并开源了其新一代大语言模型DeepSeek-V4的预览版。 此次发布的亮点极为突出。官方资料显示,DeepSeek-V4不仅拥有处理百万字级超长文本的上下文能力,更在智能体(Agent)功能、世界知识整合以及复杂推理性能等多个核心指标上,达到了国
热门专题
热门推荐
过去24小时全球主要交易所比特币流向分化明显,整体净流出5740 82枚。其中CoinbasePro流出约5457枚,币安、Gemini分别流出1023枚和504枚;而OKX则逆势录得约530枚净流入。
《魔力宝贝》中“狗洞”即“奇怪的洞窟”,位于亚留特村西南方向黄色传送石处,是12至20级玩家高效练级地点。前往路线为:从法兰城至伊尔村,向北进入哈巴鲁东边洞窟击败“熊男”,穿越后抵达亚留特村,再向西南探索即可找到入口。洞内怪物等级较高,建议携带“风地”属性水晶提升生存能力。
时隔七年,贾跃亭以CEO身份重掌法拉第未来(FF)帅印,并成功为公司注入了关键的发展动力。近期,FF累计完成了高达7000万美元的机构融资。这笔至关重要的资金,被贾跃亭定位为驱动公司机器人业务实现第一阶段战略目标的“核心粮草”。 随着资金与团队就位,贾跃亭的信心显著增强。他公开立下目标:将用两年时间
任务需修复两条水道。首先跟随指引找到NPC并进入幻境,使用号角对准壁画激活飞鸟幻影,触碰并跟随其路径即可修复第一条水道。第二条水道位于洞xue内,跟随萤火虫找到入口,重复使用号角并借助弹跳水母到达高处,跟随飞鸟完成修复。完成后可获得奖励并推进剧情。





