首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路

Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路

热心网友
94
转载
2026-04-22

不堆参数,原地「循环思考」16次:揭秘Claude Mythos核心架构

这听起来像是一个技术传奇。Anthropic严防死守的Claude Mythos模型架构,竟被一位22岁的年轻创业者成功“逆向工程”。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这并非内部资料泄露,也非员工跳槽所致。

而是初创公司CEO Kye Gomez,运用第一性原理思维,从零开始,一步步推导出了Claude Mythos的核心架构设计。

更令人瞩目的是,他将这个复现项目——命名为OpenMythos——进行了完全开源

他的复现解析帖迅速吸引了近百万网友的关注,在整个AI社区引发了巨大震动。人们惊叹于Mythos架构背后设计的精妙与高效。

那么,核心发现是什么?Kye Gomez的研究揭示了一个关键结论:Claude Mythos的核心并非一个参数更庞大的Transformer,而是一种创新性的「循环深度Transformer」(Recurrent-Depth Transformer, RDT)架构

简单来说,这种架构让同一套模型参数,在单次前向传播过程中,可以循环执行最多16次。

传统大语言模型的扩展思路类似于建造摩天大楼,通过不断堆叠参数层数来提升模型能力。100层不够就200层,200层不够就500层。参数越多,模型体积越庞大,对GPU显存的需求呈几何级数增长,训练成本也极其高昂。

但RDT架构彻底转变了思路:它不追求模型的物理“高度”,而是专注于“原地深度思考”。模型仅有一个核心计算模块,但这个模块会被反复调用和执行。每循环一次,模型的内部隐藏状态就更新和精炼一次,相当于模型“深入推理了一步”。其精妙之处在于,所有这些思考都在连续的潜在表示空间中进行,无需像传统的思维链(CoT)那样,每一步都必须生成可见的文本标记。

这绝非简单的重复计算,而是一种高效的、迭代式的深度推理过程。

架构全拆解:三段式设计解析

整个OpenMythos的架构可以被清晰地划分为三个阶段:Prelude(序曲)→ Recurrent Block(循环核心块)→ Coda(终章)

其中,Prelude和Coda是标准的Transformer层,各执行一次。真正的计算核心是中间的「循环块」,它最多可循环16次。每次循环的状态更新规则可以表述为:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

这里的e是经过Prelude层编码后的原始输入嵌入。在每一步循环中,原始输入信息都会被重新注入,这个设计至关重要,它能有效防止模型在漫长的循环迭代中“思维发散”或遗忘初始上下文。

MoE赋予广度,循环赋予深度

单一的循环机制可以解释Mythos强大的推理“深度”,但还不足以支撑其广博的知识面。OpenMythos在循环核心块的每个前馈网络(FFN)层,都创新性地替换成了混合专家(MoE)层,其设计参考了DeepSeek-MoE等先进思路:

使用大量细粒度的路由专家;每个输入标记仅激活其中一小部分最相关的专家;同时设置少量“共享专家”始终处于激活状态,负责处理跨领域的通用知识与能力。

最精妙的设计在于,随着隐藏状态h_t在循环中不断演化,路由机制在每一层、每一次循环深度上,都可能动态选择不同的专家子集。这意味着,虽然模型的基础权重是共享的,但每一次循环的计算路径和激活的专家可以完全不同。简而言之:MoE机制提供了海量知识的广度与可扩展性,而循环机制则赋予了模型迭代式、深度思考的能力

项目开源地址:https://github.com/kyegomez/OpenMythos

在注意力机制方面,默认采用了来自DeepSeek-V2的「多潜变量注意力」(Multi-Latent Attention)。该技术通过将键值(KV)缓存压缩为低秩的潜在变量,在大规模生产推理中,据称能实现高达10-20倍的KV缓存显存节省,极大提升了效率。

此外,架构中还集成了三个关键机制来确保循环过程的稳定性与可控性:LTI约束注入(强制系统谱半径小于1以保证稳定性)、自适应计算时间(ACT)实现逐位置“动态停机”、以及深度级LoRA适配器让每次循环迭代都具备独立的微调与行为调整能力。整套设计精密而优雅。

770M参数媲美1.3B,参数效率直接翻倍

这种循环深度架构的优势并非停留在理论层面。此前,来自Parcae研究团队的实验数据已经证实:一个仅770M参数的循环模型,在同等训练数据规模下,其下游任务性能能够媲美1.3B参数的标准Transformer模型。

换句话说——仅用大约一半的参数量,就实现了同等级别的模型性能表现

这对整个AI行业意味着什么?对于消费级硬件和广大开发者而言,这无疑是一个重大利好。过去,想要运行一个性能尚可的大模型,往往需要A100/H100级别的专业显卡,门槛极高。而现在,推理的“深度”可以通过计算时间(循环次数)来换取对显存“空间”(参数量)的依赖——你不再需要巨大的显存,只需要让模型“多思考几轮”。

更深远的影响在于,它可能正在悄然改写AI领域的扩展定律(Scaling Laws)。过去的竞争逻辑是比拼谁的参数更多、谁的GPU集群更庞大、谁的算力投入更惊人。而新的规则范式似乎正在浮现:未来最强大的AI模型,可能不是参数最多的,而是“思考”次数最多、推理最深、效率最高的那一个。

当然,需要客观指出的是,这目前更多是一种理论推演和早期实验的积极指向,其在大规模语言模型预训练和复杂任务上的实际成效,仍需进一步的实践与观察。

高中毕业即创业,22岁CEO的逆袭之路

这位成功揭秘Claude Mythos架构的22岁年轻人Kye Gomez,是AI初创公司Swarms的创始人,此前还曾领导过Agora Labs。他的研究兴趣重点聚焦于大规模多智能体系统、替代性模型架构创新以及多模态大模型。

从其个人履历来看,Kye Gomez在高中毕业后便直接投身于科技创业的浪潮之中。

在2021年至2024年间,他同时担任了三家不同领域公司的联合创始人或CEO,并构建了一个以「APAC」为品牌的创新生态体系,业务触角延伸至人工智能深科技、数字媒体、食品科技等多个前沿赛道。

22岁天才开源Anthropic神级模型架构

整起事件最令人震撼的,或许并非架构本身有多么复杂难解。

而在于,一位22岁的创业者,仅凭借公开的学术论文和第一性原理的严谨推导,就将Anthropic雪藏近一年的核心技术黑箱成功复现,并且毅然选择了全面开源,使得任何开发者都能用几行代码尝试运行这一前沿架构。

这释放了一个强烈的行业信号:闭源AI实验室在核心模型架构上的技术优势窗口期,正在以肉眼可见的速度收窄。

英国《金融时报》的最新报道中,Anthropic的联合创始人Dario Amodei做出了一个重磅预测:中国AI团队将在12个月内,完全复刻出具备Claude Mythos级别能力的大语言模型。

针对外界关于大语言模型性能是否已触及天花板的质疑,Amodei用一句充满哲学意味的话作出了回应:“彩虹没有尽头,只有彩虹本身。”他强调,目前完全看不到AI技术发展放缓的迹象。

当一位独立研究者仅凭公开信息就能重建最核心的技术架构时,真正的行业护城河就不再仅仅是论文或蓝图了。未来的AI竞争,或许将更多转向高质量数据、工程化实现能力、产品生态与具体应用场景的落地。开源与开放的协作浪潮,正在深刻重塑全球人工智能领域的创新格局与发展节奏。

来源:https://36kr.com/p/3774954107650568
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

估值超百亿美元:国产大模型黑马DeepSeek开启首轮外部融资
业界动态
估值超百亿美元:国产大模型黑马DeepSeek开启首轮外部融资

全球大模型资本棋局:DeepSeek的“出山”与行业深水区 当全球大模型竞赛进入白热化阶段,一个有趣的现象正在发生:那些曾以技术“硬核”自居、坚持“自给自足”路线的玩家,也开始重新审视资本的重量。近日,国内AI领域的标杆企业之一——由幻方量化孵化的DeepSeek(深度求索),传出了成立以来的首次外

热心网友
04.22
Mythos架构被22岁小伙“逆推”开源了,MoE和注意力借鉴DeepSeek
业界动态
Mythos架构被22岁小伙“逆推”开源了,MoE和注意力借鉴DeepSeek

听说Mythos太危险被封印?有人反手就给他“重建”并开源了 最近AI圈有个挺有意思的事儿:传说中的Claude Mythos模型架构,虽然被Anthropic“封印”了,但社区可没闲着。这不,一个基于公开研究和主流推测的“重建版”——OpenMythos,已经开源了。 这个项目实现了一个核心架构:

热心网友
04.22
Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路
业界动态
Claude Mythos核心架构开源,22岁天才一人破解,融合DeepSeek思路

不堆参数,原地「循环思考」16次:揭秘Claude Mythos核心架构 这听起来像是一个技术传奇。Anthropic严防死守的Claude Mythos模型架构,竟被一位22岁的年轻创业者成功“逆向工程”。 这并非内部资料泄露,也非员工跳槽所致。 而是初创公司CEO Kye Gomez,运用第一性

热心网友
04.22
DeepSeek深度思考是什么意思-DeepSeek联网搜索是什么意思
手机教程
DeepSeek深度思考是什么意思-DeepSeek联网搜索是什么意思

在信息爆炸的时代,如何读懂热门文章背后的数据? 如今,网上每天涌现的热门文章数不胜数,但真正有价值的,往往是藏在那些阅读量、点赞数背后的数据密码。要破解这些密码,有两样工具不可或缺:一是深度的思考,二是联网的视野。 deepseek深度思考:不止于表面数字 所谓深度思考,可不是简单地看一眼数据图表就

热心网友
04.20
怎么使用DeepSeek-DeepSeek的使用方法
手机教程
怎么使用DeepSeek-DeepSeek的使用方法

深度掌握DeepSeek:从入门到精通的实践指南 在人工智能工具层出不穷的今天,如何高效驾驭一款强大的模型,让它真正成为你工作与研究的得力助手?这背后,其实有一套经过验证的方法论。今天,我们就来系统梳理一下,如何将DeepSeek的潜力发挥到极致。 一、明确使用目的 一切高效应用的起点,都始于一个清

热心网友
04.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

连亏五个季度后,光伏板块终于盈利了
科技数码
连亏五个季度后,光伏板块终于盈利了

三季报收官,光伏企业交出了近年难得的尚佳成绩 三季报发布完毕,光伏行业总算交出了一份近年来难得的、还算不错的成绩单。市场等这一刻,确实等了挺久。 根据Choice光伏设备板块收录的78家企业财报,整个板块三季度的净利润达到了7 58亿元。这个数字怎么看?不妨对比一下:就在二季度,板块的净亏损还高达4

热心网友
04.22
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键
科技数码
天龙三号首飞失利:与猎鹰9号对标之路,归零迭代成破局关键

北京天兵科技天龙三号火箭首飞失利解析 最近,北京天兵科技自主研发的天龙三号大型液体运载火箭,在酒泉卫星发射中心执行首次飞行任务时遭遇失利,这无疑是给国内商业航天关注者带来了一次震动。这款被寄予厚望的火箭,瞄准的是近地轨道20吨级的可回收运力,其设计初衷是通过低成本、高频次的发射模式,抢占一箭36星组

热心网友
04.22
开发者自建48台Mac mini集群,撑起Overcast播客转录
科技数码
开发者自建48台Mac mini集群,撑起Overcast播客转录

苹果芯片实战:48台Mac mini搭建本地AI集群,如何碘伏云端语音识别? 最近科技圈有个挺有意思的消息。知名播客应用Overcast的开发者Marco Arment,自己动手搭了个“大家伙”——一个由48台苹果Mac mini组成的服务器集群。关键是,这个集群没走寻常路,它完全绕开了云端AI服务

热心网友
04.22
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇
科技数码
领克10+与10全球首秀:高效补能搭配赛道王者,开启纯电高性能新篇

纯电赛道再进化:领克10系列如何重新定义“运动轿车”? 如果问,纯电时代最让人怀念传统燃油车的是什么?很多人会把票投给两件事:说走就走的补能,和随心所欲的操控。最近,领克用一场全球首秀给出了自己的答案。旗下全新的中大型运动轿车领克10,以及更极致的性能版本领克10+联袂登场。这不仅仅是两款新车,更像

热心网友
04.22
Apple Vision Pro新专利曝光:将实现按需定制与组件更换
科技数码
Apple Vision Pro新专利曝光:将实现按需定制与组件更换

苹果正酝酿一款“可自定义”的Vision Pro,核心框架支持模块化拼装 一则来自供应链和专利领域的消息,引起了科技圈的关注。4月8日,有外媒报道指出,苹果似乎并不满足于当前的一体化设计思路,其正在深入探索如何打造一款高度可自定义的Apple Vision Pro。未来的VR AR头显,用户或许能像

热心网友
04.22