DeepSeek 的横空出世,算是在国内 AI 圈子里投下了一颗重磅冲击波。它带来的冲击,远不止于技术层面,更深层的意义在于,它彻底打破了此前国内科技巨头们对大语言模型发展的固有路径依赖。接下来会发生什么?一些连锁反应恐怕已经在酝酿之中了。

先说结论:DeepSeek 的成功已经是板上钉钉的事。无论这家公司未来的商业故事如何书写,单就它已经对国内外 AI 产业格局产生的实质性影响来说,这绝对是一个值得被写入教科书的经典案例。
资源受限,反而常常是创新的催化剂,DeepSeek 再次证明了这一点。相反,当资源过于充沛,创新有时候反而会陷入路径依赖的僵局。对于国内那些手握海量 GPU 的互联网巨头而言,它们的决策层过去几年里,骨子里可能并不相信——仅凭那么一点计算资源,就能训练出性能如此出色的大模型。所以,我们看到了一种教科书式的“集中力量办大事”的策略:把公司里所有的 GPU 算力资源,一股脑儿地全交给一个核心团队,硬着头皮往上堆。这个思路本身没毛病,但从实际产出效果来看,似乎总是差那么点意思。尽管各家巨头的大模型在公开指标上看着都不错,但可以预见,内部评估恐怕仍未达到预期。一个明显的信号是:目前还没哪位大佬公开表示,自己已经稳稳拿到了那张所谓的“AI 船票”。
DeepSeek 恰恰打破了这层迷思。它向业界证明,大语言模型的训练成本完全可以被砍掉一个甚至两个数量级。据估算,其训练成本不到 600 万美元,而此前行业里普遍的认知是,没有 1 亿美元以上根本玩不转,这才催生了疯狂的“显卡军备竞赛”。试想,当训练成本从 1 亿美元骤降到数百万美元,能承担起这笔投入的公司数量,会呈指数级增长。这带来的影响是碘伏性的。
对于国内互联网巨头而言,最直接的影响或许是:以前好不容易凑起来的 10000 张显卡资源包,现在完全可以拆分成 5 个 2000 张显卡的小资源池,交给 5 个不同的团队去并行探索。为什么是 2000 张?因为 DeepSeek V3 正是用它训练出来的。这种策略上的转变,能让成功的概率呈几何级数增加。
以腾讯为例,如果微信团队当初就能支配 2000 张显卡,那一个如此有影响力的模型,或许就诞生于微信之手。这个判断并非空xue来风,因为根据目前外界的分析,DeepSeek 团队直接对 PTX 进行了底层优化,极大地提升了计算性能。一个原本面向金融场景的技术团队能做到这一点,一个长期深耕通讯领域的团队,理论上同样具备这种能力。这种可能性,不应该被排除。
类似的情况,对于阿里巴巴或是字节跳动,应该也同样适用。既然比拼的不再仅仅是显卡数量的多寡,那么下一步,真正的赛点就变成了:哪个团队能在技术和产品端拿出真正的创新能力。
鸡蛋不应该只放在一个篮子里。这既是投资的基本常识,也是技术创新中一种战略上的必然选择。而这种从“砸钱拼资源”到“分钱赌创新”的模式切换,很可能就在 2025 年,开始发生。
