6850亿参数的DeepSeek-V3新模型来袭,性能与稳定性的双重飞跃!
核心内容:
1. DeepSeek-V3-0324模型的参数量与前代相同,均为6850亿
2. 支持BF16、F8_E4M3和F32三种不同精度的浮点数格式
3. 性能提升与bug修复,DeepSeek-V3-0324的两大主要改进

终于来了!DeepSeek在3月24日晚间,于官方Hugging Face社区悄悄上传了一个新模型——DeepSeek-V3-0324。从命名就能看出,这是上一代DeepSeek-V3的升级版。
点进模型页面,虽然官方还没来得及更新详细的README文档,但右侧的参数信息已经透露了不少信息。新模型还是那个熟悉的规模:6850亿参数,和上一代完全一致。所支持的张量数据类型也没变,依然是BF16、F8_E4M3和F32三种不同精度的浮点数格式,用于推理和训练计算。毫无疑问,这次又是完全开源。
尽管官方还没正式介绍,但可以想见,DeepSeek-V3-0324主要会在两个方面下功夫。一个是性能。前一代DeepSeek-V3本来就够强了——不少平台(比如作者的微信公众号)接入的就是这个版本,而且早在DeepSeek爆火之前,就有测评对比过V3和GPT-4o,结果让人直言不想再续ChatGPT会员。至于能力,确实不需要多说什么。
另一个是修bug。是的,模型也有bug。之前的DeepSeek-V3有个挺“致命”的问题:function call循环调用和空回复。DeepSeek官方曾在其开放平台发过相关公告,而现在,那条公告已经不见了——问题显然已经解决。
至于哪里能用上DeepSeek-V3-0324?Hugging Face上已经有用户发现,官网“非深度思考”模式下的底层模型似乎已经换成了这个新版本。不用着急,一旦正式发布,官网和API都会同步更新。
