过去一年,大模型开源社区的热度持续攀升,丝毫未减。从参数规模的显著增长,到代码生成、数学推理、语言理解等核心能力的不断突破,大模型早已不再是仅供实验室探索的玩具,而是切实推动人工智能应用落地的关键力量。Transformer架构的持续演进,以及MoE(混合专家)技术的广泛部署,这些创新一次次刷新了人们对AI能力极限的认知。

12月26日,DeepSeek正式上线并开源了全新系列模型DeepSeek-V3的首个版本。这是一款自主研发的MoE混合专家模型,采用FP8低精度训练(原生FP8权重已同步开放),总参数量高达671B,但每次推理仅激活其中的37B参数,在14.8T token规模上完成了预训练。最引人注目的亮点是什么?DeepSeek-V3训练所消耗的计算资源仅为Llama 3 4050B的十一分之一——然而其性能表现却足以领先众多国内外顶尖大模型,这种高效与低算力依赖的特性,令人印象深刻。据官方技术报告披露,DeepSeek-V3在分布式推理上做出了多项创新优化,大幅提升了MoE模型在分布式环境中的负载均衡效率,为未来更大规模的模型部署提供了一种可扩展的新架构思路。同时,在算法与工程层面的双重加持下,相比前代V2.5,DeepSeek-V3的生成吐字速度提升了3倍。
司南OpenCompass也在第一时间对DeepSeek-V3展开了评测,结果已同步更新至司南大语言模型公开学术榜单。
评测解读
司南OpenCompass大语言模型公开学术榜单(实时榜)排名前10的模型得分显示:
DeepSeek-V3以71.9分的平均成绩,超越了包括最新的Gemini-2.0-Flash-Exp、Claude-3.5-Sonnet-20241022在内的一系列海外模型,直接登顶OpenCompass开源学术榜单首位。这意味着,开源模型的能力水平已经真正达到了足以媲美商业模型的高度。
在具体能力维度上,DeepSeek-V3在复杂推理场景中表现尤为突出,尤其在代码生成、数学解题、综合知识推理等方向上,均取得了非常优异的成绩。
此外,上海人工智能实验室开源的大模型推理部署框架LMDeploy,现已支持DeepSeek-V3的原生FP8高效推理。
了解更多
司南OpenCompass大语言模型公开学术榜单链接如下:
- https://rank.opencompass.org.cn/leaderboard-llm-academic/
- https://huggingface.co/spaces/opencompass/Compass_Academic_Leaderboard
司南OpenCompass开源评测工具链:
