首页 游戏 软件 资讯 排行榜 专题
首页
AI
DeepSeek团队27篇论文揭秘:揭秘AI多面手背后的技术实力

DeepSeek团队27篇论文揭秘:揭秘AI多面手背后的技术实力

热心网友
96
转载
2026-05-19

79位跨方向骨干、87%的初代留存率,以及一套让年轻人围绕问题自由组队的机制——这些数字勾勒出DeepSeek研发团队的另一面。

过去一年,关于DeepSeek的人才流动消息从未间断。从早期的罗福莉离职,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅相继被其他公司高薪挖走。核心作者接连离开,一个自然的问题是:DeepSeek的技术壁垒会不会因此松动?

要回答这个问题,或许需要换一个视角。我们决定从他们公开发布的技术成果入手,进行一次“数据侦探”式的观察。

通过梳理DeepSeek近两年发布的27篇核心论文和技术报告,逐篇拆解署名作者,最终得到一份包含328人的研发作者池。分析这份名单,可以发现几个有趣的特点:团队内部没有明显的“部门墙”,328位作者中有168人形成了稳定、重复的合作关系;研发架构呈现“兵团+小组”模式,一个基模大兵团与多支精锐特种小队高效配合;团队背景高度集中,Top25研发作者中近四成来自北京大学;更重要的是,研发活动高度跨界,超半数作者涉足多个方向,其中横跨3个及以上技术方向的“多边形战士”多达79人。

这些研究员并非固定在某个部门,而是根据兴趣和问题动态集结。他们的论文主题也颇具特色,很少围绕榜单刷分,更多聚焦于底层工程瓶颈:如何更好地利用算力,处理长上下文时如何降低缓存成本,模型规模扩大后如何保持训练稳定。

1. 被挖走的那几位,到底排第几?

DeepSeek的27篇论文,主要覆盖基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习这七个技术方向。

要评估一位研究员在合作网络中的参与度,可以从两个维度看:参与论文的数量,以及覆盖技术方向的广度。需要说明的是,这两个指标仅来自论文署名统计,不代表具体的贡献大小或组织层级。我们将同时覆盖3个及以上技术方向的研发作者,称为“多边形战士”。

这个数字是多少?79人。

那么,那些在传闻中被重金争抢的名字,在这个网络里处于什么位置?

阮翀确实是参与度最高的一位——覆盖了18篇论文、6个方向,从MoE架构到数学证明再到多模态,几乎无处不在。他本硕均毕业于北京大学,早年从事NLP研发,2024年加入DeepSeek,参与了DeepSeek-VL、V3和R1等工作,是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。

郭达雅参与了11篇论文,覆盖4个方向,在高频研发作者中并列第12位。王炳宣参与了10篇论文,覆盖5个方向,并列第17位。

毫无疑问,他们都是核心人员,他们的离开当然是损失。但关键问题在于:DeepSeek还有多少个“郭达雅”和“王炳宣”?

数据显示,像他们这样参与10篇以上论文的研发作者共有24位。即便离开了三位,后面还有21位参与强度相当的研究员。如果把DeepSeek看作一支球队,虽然被挖走了几位核心球员,但这支球队的人才储备厚度,可能比外界想象的要深。

更值得关注的是“跨界”的普遍性。328位研发作者中,只在1个方向出现过的有158人。剩下的170人,至少跨过两个方向。其中,横跨3个及以上方向的,正是那79位“多边形战士”。

举一个极端的例子,李宇琨参与了14篇论文,横跨全部7个方向,从初代DeepSeek LLM一路到最新的V4,谷歌学术引用量超过两万。他是DeepSeek的“首位员工”,2024年从字节跳动搜索团队离职后加入,负责预训练数据的相关工作。

这也印证了一个常被外界忽略的事实:在AI行业,人才一直是多向流动的,DeepSeek同样也在从别处吸引顶尖人才。

2. 多边形战士是如何长成的?

外界总在讨论DeepSeek还有没有天才。其实,每家AI公司都有明星研究员。DeepSeek的不同之处,在于它能让一批很年轻的研究员,迅速在多个技术方向之间自由组队、探索,并获得资源支持,整个过程较少受到传统组织架构的约束。

辛华剑在DeepSeek实习期间,主导开发了专注于数学证明的DeepSeek-Prover系列模型,他也是该系列V1.5论文的第一作者。他曾透露,Prover项目在内部最初只是一个独立探索,初衷是验证能否通过形式化系统构造出更严格的推理数据。

这与大多数公司的流程截然不同。许多大厂会先设立部门、确定KPI、分配预算,再启动项目。而DeepSeek的顺序往往是反过来的:先有人觉得某个问题值得深入研究,再围绕这个问题去寻找志同道合的伙伴和资源。

在论文合作网络里,这种“动态组队”的方式留下了清晰的痕迹。根据署名关系进行聚类,可以看到4个相对集中的协作小组:基模大兵团、系统效率、数学与推理、多模态,以及另外3个更小的协作簇。需要说明的是,这些“组”并不对应DeepSeek真实的部门划分,只反映了谁更经常与谁合作。

有趣的是,这个结构恰好与梁文锋描述的组织方式高度吻合。梁文锋曾表示:“我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。当一个idea显示出潜力,我们也会自上而下地去调配资源。”

据晚点LatePost报道,DeepSeek的组织层级很薄,研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向,就是因为有三五个人都觉得一个idea不错,然后就一起做了。”梁文锋的角色更接近一位导师:组织研发、协调资源,并在共同成果上作为通讯作者署名。

这套组织方式还有一个在AI行业里极为罕见的特征:不鼓励加班。平日多数成员在晚上6到7点离开公司,不打卡,也没有明确的绩效考核。梁文锋的逻辑很直接:“一个人每天能高质量工作的时间很难超过6到8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源,得不偿失。”

梳理发现,DeepSeek的论文作者中,多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。排名前25的高频研发作者里,近四成毕业于北大。但这不应被简单理解为“名校人海战术”。据了解,不少AI实验室的招聘取向都在发生变化,在校博士比拥有多年大厂经验的“老兵”更受青睐。

一位AI公司董事长曾分享,自从ChatGPT出现后,他开始挤出午饭时间面试有潜力的在读博士生,再小的项目都会聊上至少一小时,从基础公式推导问到工程细节把控,以筛选出真正的创新者。他指出,大多数人都是在2024年才开始转向GPT相关的架构研究,相当于站在了同一起跑线上。“这一时间点后毕业的博士,还未被行业惯性束缚,常能带来意想不到的突破。”

梁文锋自己也说过,做出DeepSeek V2的,“都是一些Top高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。”

那么,DeepSeek团队的稳定性究竟如何?交叉比对论文署名可以发现:初代模型论文(2024年1月)的86位作者中,到V4(2026年4月)仍然出现在署名里的有75人。两年半时间过去,初代团队近九成成员仍在。

再看V4的Research & Engineering名单,269名研发工程作者中,论文标注已离职者为10人,占比约3.7%。作为对比,据Z Finance报道,截至今年4月,过去一年约有60至70名字节跳动Seed团队的成员流向了各大模型公司。

这些数字并不等同于DeepSeek真实的整体流失率,但它们至少说明,其核心研发网络并没有因为几位明星研究员的出走而散架。

3. 两年27篇论文,死磕系统效率

如果只看外界的声量,V3、V4这些基座模型技术报告无疑最引人注目。

但统计论文主题分布,结果却有些反直觉:27篇论文中数量最多的,并非基座模型,而是系统/效率类论文,共有7篇,超过了基座模型(5篇)和数学(5篇)。

这7篇论文分别是:DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。值得注意的是,没有一篇是在单纯地刷榜(benchmark),它们全部在解决同一类底层问题:如何用更少的算力,做更多的事。

逐一拆解这些论文,可以看到三类核心挑战:

第一类,如何更高效地利用算力。例如ESFT关注如何更经济地完成模型微调,而Insights into V3则复盘了如何在大规模集群训练中提高硬件利用率和稳定性。

第二类,处理长上下文时如何降低缓存成本。当模型需要处理更长文本,或执行复杂Agent任务时,注意力计算和KV Cache(模型保存历史上下文的中间记忆)的成本会急剧上升。NSA、Conditional Memory和DualPath这几篇论文,都在尝试压缩模型“记住历史”所需付出的代价。

第三类,模型规模变大后如何训练得更稳定。DeepSeekMoE探索的是当参数规模膨胀时,如何只激活更少的专家网络;mHC则试图增强深层网络中的信号传播,以降低超大规模模型训练时的不稳定性。

梁文锋曾提出一个假设:“能不能用现存的一部分算力,就实现现在所有的智能?”这7篇系统相关的论文,可以看作DeepSeek团队为回答这个问题所提交的阶段性答卷。

另一个细节是,27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄200到300人的“全员参与”,而系统、数学、多模态方向的论文,通常只有6到20人的精干团队。

前者像大兵团作战,后者则像特种小队的单点突破。先用小团队低成本验证技术路径,跑通后再集成到下一代旗舰模型中。

4. 从R1到V4,技术底牌是如何攒出来的?

如果把DeepSeek的研发历程看作一场长跑,那么V4的发布并非一次突然的爆发,更像是几条并行已久的技术路线,在两年后的一次集中收束与集成。

第一条主线是参数效率。从V2引入MoE(稀疏混合专家架构),到V3延续并强化多Token预测策略,再到V4在MoE框架上继续压低激活参数和推理成本。这条路线始终朝着“激活更少参数、完成同样任务”的方向演进。

第二条主线是长上下文效率。模型需要处理的历史上下文越长,需要保存的中间记忆(KV Cache)就越多,成本也越高。可以打一个比方:传统大模型有点像把整本书摊开,每回答一个问题都要从头翻一遍。DeepSeek从V2开始就在思考,能否对信息进行分级处理?比如把近处内容保留原文、远处内容做成目录、更远处内容压缩成章节摘要?

这个想法从V2的MLA(多头潜在注意力),到V3.2的NSA(原生稀疏注意力),一直演化到V4的Hybrid Attention(混合注意力系统)。V4技术报告显示,在100万Token的长上下文场景下,V4-Pro的单Token推理计算量约为V3.2的27%,KV Cache占用约为其10%。

第三条主线是后训练能力的整合。R1证明了大规模强化学习可以显著激发模型的推理能力。到了V4,思路进一步延伸:在数学、代码等领域分别进行强化训练,再通过“毕业典礼”——即同策略蒸馏(OPD)——将能力合并进一个统一的模型,从而减少不同能力在混合训练时可能产生的相互干扰。

此外,Prover系列服务于数学与形式化推理,OCR路线为视觉输入压缩提供低成本方案,mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块都先在小规模的专题论文中经过反复试验和验证,随后被集成到旗舰模型中,最终沉淀为整个团队共享的工程实践。

从这个角度看,V4的重点或许不在于变得“更大”或“更强”,而在于让模型不仅能“想得更深”,也能在更长、更复杂的任务中,以更低的成本持续、稳定地运行。

纵观这27篇论文,一个清晰的思路浮现出来:不盲目堆砌算力,不沉迷榜单刷分;先以小团队验证技术可行性,再集成到主流产品;死磕系统效率,力求突破现有算力限制。这些论文里几乎没有围绕benchmark刷分的工作,全都在瞄准具体的工程瓶颈下功夫。

梁文锋对此有过阐述:“如果目标是做应用,沿用Llama结构短平快上产品也合理。但我们的目的地是AGI,这就需要研究新的模型结构,在有限资源下实现更强的模型能力。”

值得注意的是,DeepSeek甚至将底层算子库从主流的CUDA和Triton,换成了北京大学团队开源的TileLang。V3.1采用的数据压缩格式,也是针对下一代国产芯片设计的。在追求极致效率的同时,他们还在布局一件更长远的事:基于国产生态来构建大模型的基础设施。

5. 人可以挖走,体系带不走

人才流动在AI行业不会停止。顶尖研发人员被高薪争抢,几乎是这个行业的常态。DeepSeek未来也难免会继续经历这样的人才竞争。

然而,如果仅用“是否被挖角”来判断一家技术公司的稳定性,这个评估框架本身可能就存在问题——尤其是当这家公司的核心竞争力,并不依附于少数几个明星个体的时候。

大众热衷于传播天才的故事,但27篇论文的数据讲述了一个更复杂、也更难被简单概括的故事。数据呈现的DeepSeek是:79位横跨多个方向的“多边形战士”,24位参与10篇以上论文的研发骨干,以及初代成员高达87%的留存率。

更重要的是,这张合作网络中存在25位关键的“跨界枢纽”,他们将不同方向的研发串联在一起。这里没有固定的部门墙,研究员们根据兴趣和问题动态集结成队。

而那两年多积累下来的技术路线——从MoE到MLA,从GRPO到mHC——每一个模块都经过前序论文的反复验证与打磨,早已内化在整个团队的工程实践和知识体系之中。

梁文锋曾这样总结:“我们把价值沉淀在团队上,同事在过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”

这或许才是其500亿美元估值背后,最值得被市场重新审视和定价的东西。

来源:https://www.163.com/dy/article/KT877N9T0512MLBG.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里腾讯AI战略分化 DeepSeek融资揭示行业镜像格局
业界动态
阿里腾讯AI战略分化 DeepSeek融资揭示行业镜像格局

DeepSeek启动融资,阿里因追求深度生态绑定而退出,腾讯则以小额财务投资有望入局。这折射出两家巨头迥异的AI战略:阿里倾向于通过投资进行技术整合与控制,腾讯则保持开放生态,不干预技术路线。与此同时,字节选择重金自研,全力押注C端入口。三家公司的不同选择源于各自的企业基因与资源

热心网友
05.18
DeepSeek最新版本更新内容与功能详解
AI
DeepSeek最新版本更新内容与功能详解

近日,AI开发者社区与多个技术论坛中,一则关于DeepSeek API模型能力疑似升级的消息引发了广泛关注。多位开发者在社交媒体及技术交流群中反馈,通过API调用的模型参数出现了显著变化:上下文处理长度从原先的128K大幅提升至一百万tokens,同时知识截止日期也从2024年更新至2025年5月。

热心网友
05.18
DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性
AI
DeepSeek 模型更新解读 Tile Kernels 与 DeepEP V2 新特性

DeepSeek近期在GitHub上动作频频,技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后,团队近日又重磅开源了全新的Tile Kernels代码库,并对DeepEP专家并行框架进行了重要版本迭代,发布了性能大幅提升的DeepEP V2。 Tile Kernels

热心网友
05.18
DeepSeek融资细节曝光 资金充足旨在留住核心人才
AI
DeepSeek融资细节曝光 资金充足旨在留住核心人才

北京时间4月24日,《金融时报》的一则报道,揭开了AI明星公司DeepSeek首次寻求外部融资的幕后考量。与外界想象中为“烧钱”续命不同,这次融资的核心目的颇为独特:留住人才。 图注:DeepSeek 据两位接近交易的人士透露,DeepSeek正在与一小群战略投资者接触,洽谈新一轮融资。这轮融资如果

热心网友
05.18
DeepSeek V4 模型预览版正式发布并全面开源
AI
DeepSeek V4 模型预览版正式发布并全面开源

4月24日,AI行业迎来重大突破:深度求索公司正式发布并开源了其新一代大语言模型DeepSeek-V4的预览版。 此次发布的亮点极为突出。官方资料显示,DeepSeek-V4不仅拥有处理百万字级超长文本的上下文能力,更在智能体(Agent)功能、世界知识整合以及复杂推理性能等多个核心指标上,达到了国

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

多平台推广的优势与核心价值解析
业界动态
多平台推广的优势与核心价值解析

在流量日益分散的今天,把鸡蛋放在同一个篮子里,风险不言而喻。多平台推广,早已不是“要不要做”的选择题,而是“如何做好”的生存题。它的核心价值,可以概括为两点:实现“流量风险对冲”,以及构建“品牌触点全覆盖”。通过在不同生态位——无论是搜索、短视频、图文还是电商——建立内容矩阵,企业不仅能有效缓冲单一

热心网友
05.19
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统
业界动态
DeepSeek知识库搭建教程 从零开始构建企业智能问答系统

DeepSeek知识库的核心,是运用RAG(检索增强生成)技术,将DeepSeek强大的大语言模型推理能力,与您的私有文档资源——包括PDF文件、内部代码库、标准操作流程(SOP)等——深度融合。其最终目标是实现基于特定垂直领域数据的精准智能问答,让AI的回答不再是通用泛化,而是具备专业依据、内容详

热心网友
05.19
三大运营商入局AI付费服务 使用门槛低至99元
AI
三大运营商入局AI付费服务 使用门槛低至99元

三大运营商推出Token套餐,将大模型调用量包装为类似流量包的产品,以降低AI使用门槛。中国电信推出个人与企业多档套餐,最低月费9 9元;上海移动推出1元购40万Tokens服务;联通则提供个人与团队版套餐。运营商凭借用户渠道和支付优势,推动算力消费向大众市场普及,可能重塑AI服务消费模式。

热心网友
05.19
本地部署量化模型解决HermesAgent响应慢问题
AI
本地部署量化模型解决HermesAgent响应慢问题

HermesAgent本地运行缓慢常因未量化的大语言模型占用资源过多。可通过AWQ量化模型、llama cpp后端加载GGUF模型、配置vLLM引擎提升并发吞吐、禁用非必要工具降低上下文开销,以及调整SQLite记忆检索阈值等方案优化。这些方法能显著降低延迟,提升响应速度。

热心网友
05.19
AI治理评估工程:破解智能体监管缺失的关键路径
AI
AI治理评估工程:破解智能体监管缺失的关键路径

随着AI智能体能力的持续增强,确保其行为始终符合预设目标与安全边界,已成为行业亟待解决的核心挑战。然而,当前主流的治理方案在防止智能体“失控”或“脱轨”方面,仍面临显著的实践瓶颈。 在之前的探讨中,我们分析了主流治理思路:部署多样化的对抗性验证器,构建一个多层次的安全审查网络。该方案的核心逻辑并非限

热心网友
05.19