DeepSeek团队27篇论文揭秘:揭秘AI多面手背后的技术实力
过去一年,关于DeepSeek核心人才流动的讨论从未间断。从早期的罗福莉,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心贡献者郭达雅,这些名字的相继离开,难免引发外界疑虑:核心作者接连被挖,DeepSeek赖以成名的技术壁垒是否会因此松动?
要回答这个问题,或许需要换一个视角。我们决定抛开传闻,直接回到技术产出本身——用代码和数据分析,来透视这家公司的研发体系究竟是如何运转的。
我们系统梳理了DeepSeek近两年发布的27篇核心论文与技术报告,逐篇拆解署名作者,构建了一个包含328位研发人员的分析池。对于V2、V3、V4等大型技术报告,我们聚焦于“研究与工程”名单;对于其他学术论文,则采用原始署名。最终,一幅关于DeepSeek研发团队的真实图景逐渐清晰。
数据显示了几个关键特征:团队内部几乎没有“部门墙”,超过半数的研发人员(168人)形成了稳定、重复的合作关系,累计合作链路高达319条。其组织模式类似“主力兵团+特种小队”的配合——一个庞大的基座模型兵团,与系统效率、数学推理、多模态等六支精锐小队高效协同。此外,团队中顶尖高校背景的研究者云集,Top 25的高频作者中,近四成来自北京大学。
更值得注意的是其研发文化:超过半数的研发人员在跨界工作,其中横跨三个及以上技术方向的“多边形战士”多达79人。研究员们往往根据具体问题和兴趣动态组队。而纵观所有论文,一个鲜明的焦点浮出水面:它们几乎不追逐榜单分数,而是死磕具体的工程瓶颈——如何更高效地利用算力,如何处理长上下文时的缓存成本,如何确保巨型模型训练的稳定性。

DeepSeek核心论文共著关系网络。图中每个节点代表一位研究作者,连线代表共同署名关系。
深入分析这27篇论文后,DeepSeek的技术哲学可以概括为:不盲目堆叠算力,不沉迷榜单竞争;坚持先小规模验证,再大规模集成;将系统效率视为生命线,以此突破算力的根本性限制。
1. 被挖走的明星,在体系中排第几?
DeepSeek的论文主要覆盖七大方向:基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习。要评估一位研发人员的影响力,可以从两个维度观察:参与论文的数量,以及覆盖技术方向的广度。需要明确的是,这仅是基于公开署名的统计,不代表实际的贡献排序或组织层级。我们将那些涉足三个及以上方向的研发者,称为“多边形战士”。
这个群体有多大?答案是79人。
那么,那些在传闻中被重金争抢的名字,在这张合作网络中究竟处于什么位置?
数据显示,阮翀的参与度确实最高——覆盖了18篇论文、6个技术方向,从MoE架构到数学证明再到多模态,其身影几乎无处不在。他本硕毕业于北京大学,于2024年加入DeepSeek,深度参与了DeepSeek-VL、V3和R1等关键项目,是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。
郭达雅参与了11篇论文,覆盖4个方向,在高频作者中并列第12位。王炳宣参与了10篇论文,覆盖5个方向,并列第17位。毫无疑问,他们都是核心人员,他们的离开当然是损失。但关键在于:DeepSeek内部,像“郭达雅”和“王炳宣”这样的人才储备还有多少?
答案是,参与过10篇以上论文的研发作者共有24位。即便失去了三位,后面仍有21位参与强度相当的核心骨干。如果把DeepSeek比作一支球队,虽然明星球员被挖走,但这支球队的人才板凳深度,可能比外界想象的要厚实得多。

Top 25高频研发作者。统计基于研发作者池,参与论文数和方向数不代表贡献度排序。
“跨界”是另一个值得玩味的现象。在328位研发作者中,仅在1个方向出现过的有158人。剩下的170人至少跨越了两个方向,其中横跨3个及以上方向的“多边形战士”正是那79人。
一个极端的例子是李宇琨,他参与了14篇论文,横跨全部7个技术方向,从初代DeepSeek LLM一路跟进到最新的V4,谷歌学术引用量超过两万。作为DeepSeek的“首位员工”,他于2024年从字节跳动搜索团队加入,主要负责预训练数据相关工作。这也印证了一个常被忽略的事实:AI行业的人才流动从来不是单向的,DeepSeek同样在从外部吸引顶尖人才。

DeepSeek研发作者覆盖技术方向数分布。覆盖方向数按7个主要技术方向计算。
2. “多边形战士”是如何炼成的?
外界总在追问:DeepSeek还有天才吗?
每家AI公司都有其明星人物。DeepSeek的不同之处在于,它构建了一套机制,能让一批相对年轻的研究员,迅速在多个技术方向之间自由组队、探索,并获得资源支持,过程中受到的约束和限制较少。
以辛华剑为例,他在DeepSeek实习期间,主导开发了专注于数学证明的DeepSeek-Prover系列模型,并成为相关论文的第一作者。他曾透露,Prover项目在内部最初只是一个独立的探索性尝试,初衷仅仅是验证能否通过形式化系统构造出更严格的推理数据。
这与大多数公司的流程截然不同。常见的模式是先设立部门、确定KPI、分配预算,再启动项目。而DeepSeek的顺序往往是反过来的:先有人发现一个值得深究的问题,再围绕这个问题去召集志同道合的人和调配资源。
这种“动态组队”的模式在论文合作网络中留下了清晰的痕迹。通过署名关系聚类,可以观察到4个相对集中的协作小组:基模大兵团、系统效率、数学与推理、多模态,以及另外3个更小规模的协作簇。需要说明的是,这些“组”并不对应真实的部门架构,只反映了研究人员之间稳定的合作倾向。

DeepSeek研发作者合作网络分布。合作小组根据稳定的共同署名关系识别。
有趣的是,这种网络结构与创始人梁文锋描述的组织方式高度吻合。梁文锋曾表示:“我们一般不进行前置分工,而是自然分工。每个人都有自己的成长经历和想法,不需要被推动。当一个想法显示出潜力时,我们也会自上而下地调配资源。”
据媒体报道,DeepSeek的组织层级非常扁平,研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向,就是因为有三五个人都觉得一个点子不错,然后就一起做了。”梁文锋的角色更接近于导师:组织研发、协调资源,并在共同成果上作为通讯作者署名。
这套组织方式还有一个在AI行业极为罕见的特征:不鼓励加班。平日多数成员在晚上6到7点离开公司,不打卡,也没有明确的绩效考核。梁文锋的逻辑很直接:“一个人每天能进行高质量工作的时间很难超过6到8小时。在疲劳状态下做出的昏庸判断,反而会浪费宝贵的算力资源,得不偿失。”
分析还发现,DeepSeek的论文作者中,多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。高频作者Top 25中,近四成毕业于北大。但这不应被简单理解为“名校人海战术”。行业知情人士透露,许多AI实验室的招聘取向正在发生变化,在校博士生比拥有大厂资深背景的“老兵”更受青睐。
一位AI公司董事长曾分享,自ChatGPT出现后,他开始挤出午餐时间面试有潜力的在读博士生,即使再小的项目也会深入探讨至少一小时,从基础公式推导问到工程细节,以筛选出真正的创新者。他指出,大多数从业者在2024年才全面转向GPT相关的架构研究,这意味着大家几乎站在同一起跑线上。“在这一时间点后毕业的博士,尚未被行业固有惯性所束缚,常常能带来意想不到的突破。”
梁文锋自己也说过,做出DeepSeek V2的,“都是一些顶尖高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。”
那么,DeepSeek团队的稳定性究竟如何?交叉比对论文署名可以发现:在2024年1月发布初代模型论文的86位作者中,到2026年4月的V4报告时,仍有75人出现在署名列表中。两年半时间,初代核心团队有近九成成员选择留下。
根据V4技术报告的“研究与工程”名单,在269名研发工程作者中,论文标注已离职者为10人,占比约3.7%。作为对比,有媒体报道称,截至今年4月,过去一年约有60至70名字节跳动旗下Seed团队的成员流向各大模型公司。这些数字虽不完全等同于真实的流失率,但足以表明,DeepSeek的核心研发网络并未因为少数明星人物的离开而瓦解。
3. 两年27篇论文,死磕的是什么?
如果只看外界声量,V3、V4这些庞大的基座模型技术报告无疑最吸引眼球。但统计论文主题分布后,结果却有些反直觉:在27篇论文中,数量最多的并非基座模型,而是系统/效率类论文,共计7篇,超过了基座模型(5篇)和数学(5篇)。
这7篇论文分别是:DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。它们没有一篇是在追逐榜单分数,全部聚焦于解决同一类底层问题:如何用更少的算力,完成更多、更复杂的任务。

DeepSeek近两年27篇论文时间线。横轴表示每篇论文或技术报告的去重作者数,颜色区分不同技术方向。
逐一拆解这些论文,可以看到三类核心攻关方向:
第一类,算力利用效率。例如ESFT关注如何更经济高效地完成模型微调;而Insights into V3则复盘了如何在大规模集群训练中提升硬件利用率和系统稳定性。
第二类,长上下文缓存成本。当模型需要处理超长文本或执行复杂Agent任务时,注意力计算和KV Cache(保存历史上下文的中间记忆)的成本会急剧上升。NSA、Conditional Memory和DualPath等研究,目标都是压缩模型“记忆历史”所带来的开销。
第三类,超大规模模型训练的稳定性。DeepSeekMoE探索在参数规模膨胀时,如何只激活部分专家网络;mHC则试图增强深层网络中的信号传播,以降低万亿美元参数级别模型训练的不稳定性。
梁文锋曾提出一个假设:“能否用现存的一部分算力,就实现当前所有的智能?”这7篇系统论文,可以看作是DeepSeek团队对这一问题持续给出的工程答卷。
另一个细节是,27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄两三百人的“大兵团作战”,而系统、数学、多模态等方向的论文,通常只有6到20人的精干团队。前者负责集成与总攻,后者则像“特种小队”,负责低成本单点突破与技术验证,待路径跑通后,再将其整合进下一代旗舰模型。
4. 从R1到V4:技术路线的收敛与集成
如果将DeepSeek的研发历程视为一场长跑,那么V4的发布并非一次突如其来的爆发,更像是多条并行已久的技术路线,在两年探索后的一次集中收束与集成。

DeepSeek技术模块演进示意图。图中展示的是论文中可追溯的技术路线和模块关系,不等同于严格的代码复用率。
第一条主线是参数效率。从V2引入MoE(稀疏混合专家架构),到V3延续并强化多Token预测策略,再到V4在MoE框架上继续压低激活参数和推理成本,这条路线始终朝着“用更少的激活参数,完成同等甚至更复杂任务”的方向演进。
第二条主线是长上下文效率。模型需要处理的历史越长,保存中间状态(KV Cache)的成本就越高。可以打一个比方:传统大模型处理长文本就像每次回答问题都要把整本书从头翻一遍。DeepSeek从V2开始就在思考,能否对信息进行分级处理——近处内容保留原文,远处内容做成目录,更远处则压缩为章节摘要?
这个思路从V2的MLA(多头潜在注意力),演进到V3.2的NSA(原生稀疏注意力),最终在V4的Hybrid Attention(混合注意力系统)中得以深化。V4技术报告显示,在处理100万Token的长上下文时,V4-Pro的单Token推理计算量约为V3.2的27%,KV Cache占用仅为后者的10%。
第三条主线是后训练能力整合。R1证明了大规模强化学习能显著激发模型的推理能力。到了V4,思路进一步发展为:让模型在数学、代码等不同领域分别进行高强度专项训练,变得足够强大后,再通过“同策略蒸馏”(OPD)等手法,将各项能力统一整合到一个模型中,从而减少混合训练时可能产生的相互干扰。
此外,Prover系列服务于数学与形式化推理,OCR路线为视觉输入提供了低成本压缩方案,mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块,都先在小规模的专题论文中进行反复试验与验证,随后被集成到旗舰模型中,最终沉淀为整个团队共享的工程实践与知识库。
从这个角度看,V4的重点并非单纯追求参数量的“更大”或榜单分数的“更强”,而是致力于让模型既能进行更深度的思考,也能在更长、更复杂的任务序列中,以显著降低的成本持续、稳定地运行。
这完整地诠释了DeepSeek的技术思路:不盲目堆砌算力硬件,不沉迷于榜单刷分;坚持先小规模验证技术可行性,再进行大规模工程集成;将系统效率视为核心命脉,以此突破算力资源的根本性约束。纵观27篇论文,几乎没有围绕基准测试刷分的工作,全部都在攻克具体的工程瓶颈。
梁文锋对此有过阐述:“如果目标是快速做出应用,沿用Llama架构短平快地推出产品是合理的。但我们的目的地是AGI(通用人工智能),这就需要研究新的模型结构,在有限的资源下实现更强的模型能力。”
值得注意的是,DeepSeek甚至将底层的算子库从主流的CUDA和Triton,替换为北大团队开源的TileLang。V3.1采用的数据压缩格式,也是针对下一代国产芯片的设计而优化的。在追求极致效率的同时,他们还在布局一件更具长远意义的事:构建基于国产生态的大模型研发体系。
5. 人可以挖走,体系带不走
必须承认,AI行业顶尖人才的流动不会停止。高薪争抢顶级研发人员,几乎是这个高速发展领域的常态。DeepSeek未来也难免会继续面对此类挑战。
然而,如果仅以“是否被挖走核心人物”来判断一家技术公司的稳定性,这个评估框架本身可能就存在问题——尤其当这家公司的核心竞争力,并非依附于少数几个明星个体,而是深植于一套独特的研发体系与文化时。
公众热衷于天才叙事,但27篇论文所呈现的数据,讲述了一个更复杂、也更坚实的故事。数据描绘的DeepSeek是:79位横跨多个领域的“多边形战士”,24位参与过10篇以上论文的研发骨干,以及初代团队高达87%的留存率。
更重要的是,在这张合作网络中,存在至少25位关键的“跨界枢纽”,他们将不同研发方向串联在一起。这里没有固定的部门墙,研究员们根据兴趣和亟待解决的问题动态集结。
而过去两年积累下来的技术路线——从MoE到MLA,从GRPO到mHC——每一个模块都经过了前期论文的反复验证与迭代,早已内化为整个团队共享的工程实践和思维框架。
正如梁文锋所言:“我们把价值沉淀在团队上。同事在过程中获得成长,积累大量‘know-how’,形成能够持续创新的组织和文化,这就是我们的护城河。”
这或许才是其背后高达500亿美元估值中,最值得被市场重新审视与定价的核心资产。
相关攻略
DeepSeek启动融资,阿里因追求深度生态绑定而退出,腾讯则以小额财务投资有望入局。这折射出两家巨头迥异的AI战略:阿里倾向于通过投资进行技术整合与控制,腾讯则保持开放生态,不干预技术路线。与此同时,字节选择重金自研,全力押注C端入口。三家公司的不同选择源于各自的企业基因与资源
近日,AI开发者社区与多个技术论坛中,一则关于DeepSeek API模型能力疑似升级的消息引发了广泛关注。多位开发者在社交媒体及技术交流群中反馈,通过API调用的模型参数出现了显著变化:上下文处理长度从原先的128K大幅提升至一百万tokens,同时知识截止日期也从2024年更新至2025年5月。
DeepSeek近期在GitHub上动作频频,技术开源步伐明显加快。继不久前低调更新Mega MoE和FP4 Indexer后,团队近日又重磅开源了全新的Tile Kernels代码库,并对DeepEP专家并行框架进行了重要版本迭代,发布了性能大幅提升的DeepEP V2。 Tile Kernels
北京时间4月24日,《金融时报》的一则报道,揭开了AI明星公司DeepSeek首次寻求外部融资的幕后考量。与外界想象中为“烧钱”续命不同,这次融资的核心目的颇为独特:留住人才。 图注:DeepSeek 据两位接近交易的人士透露,DeepSeek正在与一小群战略投资者接触,洽谈新一轮融资。这轮融资如果
4月24日,AI行业迎来重大突破:深度求索公司正式发布并开源了其新一代大语言模型DeepSeek-V4的预览版。 此次发布的亮点极为突出。官方资料显示,DeepSeek-V4不仅拥有处理百万字级超长文本的上下文能力,更在智能体(Agent)功能、世界知识整合以及复杂推理性能等多个核心指标上,达到了国
热门专题
热门推荐
在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等
还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化
在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非
学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提
在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新





