DeepSeek到底咋样?虽然网上有些媒体吹得有点过,但换个角度想想——在国内大厂一个个放弃从0到1的原创创新,转头去做“1到100”的应用生意的环境下,深度求索这样一家小公司还能咬牙坚持,硬是做出了一款媲美GPT的AI模型,还免费、还开源,这事本身就很值得夸一夸。
李白有句诗——“人生得意须尽欢”。在全球普遍觉得中国AI落后国外的大背景下,DeepSeek没花大价钱打广告,就靠实力冲上了苹果App Store的下载榜第一,这已经很能说明它有两把刷子了。
其实DeepSeek早在2023年底就发布了,2024年初不少人就从GPT+KIMI转到DeepSeek,结果一用就是大半年。普遍感受是:它的文字处理能力确实强,后来加了联网功能和“深度思考”模式,体验又上了一个台阶。平时问它问题,基本很少会答错,就算偶尔有小瑕疵,稍微改改提示词也能得到很满意的答案。
一、国内外影响
英伟达
DeepSeek-R1发布后,英伟达股价直接暴跌16.9%,市值三天内蒸发约6000亿美元——创下美股单日蒸发市值的历史记录。虽然黄仁勋后来多次解释,说市场误解了DeepSeek——R1的推出其实对英伟达也是好事,推理模型反而能凸显其硬件在处理复杂推理任务中的优势。但话说回来,这场暴跌足以说明DeepSeek带来的冲击是实实在在的,尤其当大家意识到它能在更低硬件成本下实现出色效果时,英伟达的算力神话确实被动摇了。
最近看到一则新闻:“美股崩盘原因是DeepSeek”。不论如何,DeepSeek的确引发了一系列连锁反应,从中国到海外,波及面相当广。
OpenAI-奥特曼
DeepSeek发布后,OpenAI的奥特曼在X上发文:DeepSeek-R1是一个令人印象深刻的模型,尤其是他们能够以这样的价格提供卓越性能。我们显然会推出更好的模型,但同时有一个新竞争对手加入,确实让人感到振奋!
这次AI革命的核心就是OpenAI在2022年11月发布的GPT。此前国内发布的大模型并未造成太大波澜,而DeepSeek这次被视为真正的竞争对手,甚至遭受了大量来自海外的非正常请求。这些信号都表明DeepSeek已经站到了舞台中央。
2025年初AI圈最热门的话题就是DeepSeek。受其影响,奥特曼在2月13日宣布了GPT-5的免费访问计划——这放在以前几乎不可想象。
百度文心一言-李彦宏
2025年年初国内AI圈最热闹的事,莫过于DeepSeek火爆后,360、百度、阿里、腾讯等大厂纷纷接入DeepSeek满血版。除了接入之外,受影响最大的无疑是百度旗下的文心一言——2月13日宣布从2025年4月1日零时起全面免费。
百度文心一言在国内有首发优势,但一直以来也是被骂得最狠的。原因之一就是免费版本和付费版本之间存在巨大差异,3.5版本体验很差。这次受DeepSeek免费及开源的影响,百度终于把付费版全面开放了。
黑神话悟空-冯骥
DeepSeek-R1发布后,《黑神话:悟空》创作人冯骥于2025年1月26日晚发文力挺DeepSeek,称其“可能是个国运级别的科技成果”。他总结DeepSeek的强大之处在于:强大、便宜、开源、免费、联网、本地六大特点,并强调只要AI大模型能做到其中一条就已经是超级了不起的突破,而DeepSeek全部同时做到了。
就在第二天,2025年1月27日,DeepSeek-R1登顶苹果应用商店免费应用下载排行榜——市场用脚投票,就是最好的认可。
二、技术创新
当下国内的AI大模型面临不少问题,总结起来无非算力、算法、数据、人才。算法、数据、人才其实都不是关键瓶颈,真正的堵点在算力——也就是GPU。
据报道,2024年微软向英伟达采购了约48.5万张GPU,折算成货币就是一个天文数字;而国内几个大户加起来才和微软一家差不多,更何况美国还对出口中国的芯片进行限制。训练需要海量计算资源,硬件采购成本高得吓人,还被卡脖子——这几乎是死局。
而DeepSeek的训练算法大大降低了大模型对硬件的消耗。早在2024年底发布DeepSeek V3模型时,DeepSeek就开源了它的算法。当时B站很多业内大佬就说,只要这些算法被推广和证实,DeepSeek必定要火爆全球:
- DualPipe算法:模型采用类似流水线并行的优化策略,提高GPU的利用率,也通过PTX编程绕过CUDA限制。
- 精细化FP8:采用FP8训练大幅减少计算和通信量,同时结合多令牌预测技术(MTP)提升训练密度。
- 高效训练架构:采用混合专家(MoE)架构,减少了计算量和显存占用,同时设计一种创新的注意力机制(MLA),提高推理效率。
- 专家模型架构:引入共享专家和细粒度专家分配机制,动态调整专家负载,提高资源利用率。
这些技术叠加在一起,直接碘伏了“算力越贵越不可战胜”的固有认知。
能力升级
能力测试
网上不少热心网友整理了很多刁钻问题来测试大模型的能力。比如推理保险箱密码的问题,大多数模型都算不出来。由于DeepSeek连续提问会报服务器繁忙,可以用腾讯元宝的DeepSeek-R1来测试——第5次得到了正确答案。当然,在这个问题上和国外顶尖AI仍有一定差距,但这个差距正在以肉眼可见的速度缩小。
编码能力
DeepSeek在多种编程语言和各种基准测试的开源代码模型中实现了最先进的性能。下面这个来自Aider的排行榜,还有来自Huggingface的编程能力排行榜,都能看到DeepSeek编码能力非常强——相信不少程序员已经在日常开发中切身体会到了。
数学能力
在竞赛级MATH基准测试中,DeepSeek取得了51.7%的准确率,接近Gemini-Ultra和GPT-4的性能水平。数学推理是衡量模型逻辑能力的硬指标,这个成绩足以说明它的实力。
综合能力
从发布至今,DeepSeek一直被人们拿来与OpenAI和Claude对标。特别是在中文处理能力上,它有着天然的语言优势,理解深度和表达流畅度都让很多国内用户感到惊艳。
