首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

热心网友
60
转载
2025-04-23

中国人工智能初创企业 deepseek 在 2024 年 12 月 26 日推出了一款新的超大规模模型:deepseek-v3。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

根据公司的许可协议,新模型可通过Hugging Face获取,拥有 671B 个参数,但采用混合专家架构,仅激活选定的参数以高效准确地处理任务。DeepSeek 分享的基准测试显示,该产品已位居前列,超越了包括Meta 的 Llama 3.1-405B在内的领先开源模型,并与 Anthropic 和 OpenAI 的闭源模型性能非常接近。

此次发布标志着闭源 AI 与开源 AI 之间的差距再次显著缩小。DeepSeek 起初是中国量化对冲基金High-Flyer Capital Management的一个分支,期望这些进展能为通用人工智能 (AGI) 铺平道路,通用人工智能的模型将具备理解或学习人类能够完成的任何智力任务的能力。

DeepSeek-V3 带来了哪些新功能?与前代 DeepSeek-V2 一样,新的超大规模模型采用相同的基本架构,围绕多头潜在注意力 (MLA)DeepSeekMoE。这种方法确保了高效的训练和推理——每个 token 激活 671B 中的 37B 个参数,由专门和共享的“专家”(大型模型内独立的、较小的神经网络)处理。

在基本架构确保 DeepSeek-V3 强劲性能的同时,公司还推出了两项创新,以进一步提升标准。

第一项是辅助无损负载平衡策略。该策略动态监控和调整专家的负载,以平衡的方式利用它们,而不损害整体模型性能。第二项是多token预测 (MTP),它允许模型同时预测多个未来token。这项创新不仅提高了训练效率,还使模型的执行速度提高了三倍,每秒生成 60 个token。

公司在介绍新模型的技术论文中写道:“在预训练期间,我们用 14.8T 高质量、多样化的 token 训练了 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了上下文长度的两阶段扩展。” “在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。此后,我们在 DeepSeek-V3 的基础模型上进行了后训练,包括监督微调 (SFT) 和强化学习 (RL),以使其与人类偏好保持一致并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1 系列模型中提取推理能力,同时小心地保持模型准确率和生成长度之间的平衡。”

值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于流水线并行的 DualPipe 算法,以降低流程成本。

总体而言,公司声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的全部训练,假设每 GPU 小时的租赁价格为 2 美元,则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。

以 Llama-3.1 为例,预计其培训投资已超过 5 亿美元。

尽管训练成本低廉,DeepSeek-V3 已成为市场上最强大的开源模型。

公司运行了多个基准测试来比较 AI 的性能,并指出它的表现令人信服地优于领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中都优于闭源GPT-4o,除了以英语为中心的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的得分领先(而后者为 24.9 和 73.3)。

值得注意的是,DeepSeek-V3 在中文和数学基准测试中表现尤为突出,得分高于所有同类产品。在 Math-500 测试中,它的得分为 90.2,其次是 Qwen 的 80 分。

唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中均以更高的分数超越了 DeepSeek-V3。

这项研究表明,开源模型正在接近闭源模型,有望在不同任务上实现几乎相同的性能。此类系统的开发对行业来说非常有利,因为它有可能消除一家大型人工智能公司统治游戏的可能性。它还为企业在编排堆栈时提供了多种选择和使用方式。

目前,DeepSeek-V3 的代码可通过GitHub在 MIT 许可下获得,而模型则根据公司的模型许可提供。企业还可以通过类似 ChatGPT 的平台DeepSeek Chat测试新模型,并访问 API 以供商业使用。DeepSeek 提供的 API 价格与 DeepSeek-V2 相同,直到 2 月 8 日。此后,它将收取每百万输入token 0.27 美元(缓存命中时每百万 token 0.07 美元)和每百万输出 token 1.10 美元的费用。

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

来源:https://www.php.cn/faq/1285553.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

FDUSD 脱锚危机之下:对币安影响几何?
web3.0
FDUSD 脱锚危机之下:对币安影响几何?

FDUSD脱锚惊魂夜:币安生态稳定币的信任危机与系统性风险 2025年4月2日夜间,加密货币市场经历了一场突如其来的“压力测试”。由香港First Digital Trust Limited发行的美元稳定币FDUSD,在市场上演了惊心动魄的脱锚跳水,其兑USDT价格一度暴跌至0 8726美元。这场震

热心网友
04.01
Obsidian同步方案对比:为什么Git更适合管理笔记库?
科技数码
Obsidian同步方案对比:为什么Git更适合管理笔记库?

最近又折腾了下 Obsidian 的 Git 插件,虽然也有点麻烦,但它是适合我的。下面介绍下怎么配置和使用。 第一次使用 Obsidian 是在 2024 年,这是翻阅之前的文章 《Obsidia

热心网友
02.13
华为8B代码模型突破,32B巨头对手面临新挑战
科技数码
华为8B代码模型突破,32B巨头对手面临新挑战

这项由华为技术有限公司、南洋理工大学、香港大学和香港中文大学联合完成的突破性研究发表于2026年1月,论文编号为arXiv:2601 01426v1。研究团队通过一种名为SWE-Lego的创新训练方

热心网友
01.10
Wavesurf Wave13发布:集成SWE-1.5模型与Git工作流,重塑AI代码编辑
电脑教程
Wavesurf Wave13发布:集成SWE-1.5模型与Git工作流,重塑AI代码编辑

12 月 27 日消息,科技媒体 NeoWin 今天(12 月 27 日)发布博文,报道称 AI 代码编辑器 Windsurf 本周发布 Wave 13 版,通过大幅升级多智能体工作流、性能可访问

热心网友
12.29
小蚁NEO:特性、交易与投资指南
web3.0
小蚁NEO:特性、交易与投资指南

NEO(小蚁区块链)旨在构建智能经济网络。NEO通过资产数字化和智能合约实现自动化管理,用户需在支持NEO交易的平台注册账户并获取数字货币,选择合适的交易对后,即可下单交易并确认。交易完成后,可在账户中查看NEO资产,或转移至个人数字储存中安全保管NEO。

热心网友
12.13

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

检疫区最后一站麻烦事成就怎么完成-检疫区最后一站麻烦事成就完成方法
游戏资讯
检疫区最后一站麻烦事成就怎么完成-检疫区最后一站麻烦事成就完成方法

成就解锁全面解析 想要成功解锁“检疫区最后一站麻烦事”成就,玩家需要在危机四伏的检疫区核心地带,精准完成一系列高难度任务流程。这不仅是技术的考验,更是对地图理解、资源管理与临场决策的综合挑战。 前期充分准备 进入检疫区前,周密的战前准备是成功的一半。务必确保武器性能优良,配备足量的弹药与医疗物资。强

热心网友
04.03
什么是Filecoin (FIL)币?能涨到3美元吗?FIL价格预测2025-2036
web3.0
什么是Filecoin (FIL)币?能涨到3美元吗?FIL价格预测2025-2036

Filecoin (FIL) 价格暴涨超70%突破2美元!2025冲击3美元深度解析与长线预测 过去24小时,加密货币市场见证了一场来自去中心化存储龙头Filecoin (FIL)的逆势狂飙。FIL价格从约1 33美元强势拉升至2 25美元上方,单日涨幅突破70%,不仅成功收复关键阻力位,更一举登上

热心网友
04.03
魔兽世界12.0前夕浩劫DH天赋怎么加点-魔兽世界12.0前夕浩劫DH天赋加点详情
游戏资讯
魔兽世界12.0前夕浩劫DH天赋怎么加点-魔兽世界12.0前夕浩劫DH天赋加点详情

一、浩劫恶魔猎手天赋深度解析 面对《魔兽世界》12 0前夕版本全新的天赋树,浩劫恶魔猎手玩家急需一套高效的加点方案。如何精准配置天赋,将这张复杂的“天赋蓝图”转化为极致的实战输出?本文将深入剖析12 0前夕浩劫DH的核心天赋选择逻辑与加点路线,助你手中的战刃发挥出毁灭性的威力。 二、核心天赋层级详解

热心网友
04.03
欧易通行密钥创建教程:一步步带你设置安全密钥
web3.0
欧易通行密钥创建教程:一步步带你设置安全密钥

欧易通行密钥全攻略:告别传统密码,构建Web3级安全防线 在数字资产安全日益受到挑战的今天,传统密码的脆弱性暴露无遗。网络钓鱼、数据泄露等威胁迫使我们必须采用更前沿的身份验证方案。作为全球领先的Web3科技公司,欧易OKX推出的通行密钥功能,正是基于FIDO2国际安全标准的无密码登录解决方案。本文将

热心网友
04.03
下一站江湖2最强刀法厉害吗-下一站江湖2最强刀法强不强
游戏资讯
下一站江湖2最强刀法厉害吗-下一站江湖2最强刀法强不强

刀法流派核心特点解析 江湖广阔,武学纷呈。《下一站江湖2》中的刀法流派体系丰富,风格鲜明,为武者提供了多样化的成长路径。部分流派崇尚绝对力量,追求瞬间的高额爆发,力求一击制胜;另有流派则注重持久与掌控,刀势如连绵江水,以稳定的高频输出主导战场节奏。深入了解各刀法流派的核心机制与特点,是选择最适合自身

热心网友
04.03