游乐游手机版
首页/AI热点日报/热点详情

DeepSeek-V3开源第一手评测深度解读

类型:热点整理2026-06-28
DeepSeek-V3开源MoE模型,671B参数仅激活37B,采用FP8训练,训练算力仅为Llama34050B的十一分之一,性能领先众多模型,生成速度较前代提升3倍。在OpenCompass开源学术榜单中以71 9分登顶,超越Gemini-2 0-Flash-Exp等模型,代码、数学、综合知识推理表现优异。LMDeploy已支持其原生FP8推理。

过去一年,大模型开源社区的热度持续攀升,丝毫未减。从参数规模的显著增长,到代码生成、数学推理、语言理解等核心能力的不断突破,大模型早已不再是仅供实验室探索的玩具,而是切实推动人工智能应用落地的关键力量。Transformer架构的持续演进,以及MoE(混合专家)技术的广泛部署,这些创新一次次刷新了人们对AI能力极限的认知。

DeepSeek-V3最新开源,第一手评测解读速递

12月26日,DeepSeek正式上线并开源了全新系列模型DeepSeek-V3的首个版本。这是一款自主研发的MoE混合专家模型,采用FP8低精度训练(原生FP8权重已同步开放),总参数量高达671B,但每次推理仅激活其中的37B参数,在14.8T token规模上完成了预训练。最引人注目的亮点是什么?DeepSeek-V3训练所消耗的计算资源仅为Llama 3 4050B的十一分之一——然而其性能表现却足以领先众多国内外顶尖大模型,这种高效与低算力依赖的特性,令人印象深刻。据官方技术报告披露,DeepSeek-V3在分布式推理上做出了多项创新优化,大幅提升了MoE模型在分布式环境中的负载均衡效率,为未来更大规模的模型部署提供了一种可扩展的新架构思路。同时,在算法与工程层面的双重加持下,相比前代V2.5,DeepSeek-V3的生成吐字速度提升了3倍。

司南OpenCompass也在第一时间对DeepSeek-V3展开了评测,结果已同步更新至司南大语言模型公开学术榜单。

评测解读

司南OpenCompass大语言模型公开学术榜单(实时榜)排名前10的模型得分显示:

  • DeepSeek-V3以71.9分的平均成绩,超越了包括最新的Gemini-2.0-Flash-Exp、Claude-3.5-Sonnet-20241022在内的一系列海外模型,直接登顶OpenCompass开源学术榜单首位。这意味着,开源模型的能力水平已经真正达到了足以媲美商业模型的高度。

  • 在具体能力维度上,DeepSeek-V3在复杂推理场景中表现尤为突出,尤其在代码生成、数学解题、综合知识推理等方向上,均取得了非常优异的成绩。

此外,上海人工智能实验室开源的大模型推理部署框架LMDeploy,现已支持DeepSeek-V3的原生FP8高效推理。

了解更多

司南OpenCompass大语言模型公开学术榜单链接如下:

司南OpenCompass开源评测工具链:

来源:https://www.53ai.com/news/OpenSourceLLM/2024122781092.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。