DeepSeek模型一细节曝光,或是V4项目内部型号
恰逢DeepSeek R1发布一周年之际,其GitHub代码库中悄然出现了一个代号为“Model 1”的神秘新模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

近日,DeepSeek在GitHub上更新了FlashMLA的相关代码,一个名为“Model1”的模型分支迅速引发了开发者的广泛关注。通过代码对比可以发现,Model 1是作为与V32并行且独立的开发分支出现的,在新提交的114个文件中被提及高达28处。

V32指的是当前已发布的DeepSeek-V3.2版本,而Model 1在代码库中与之并列,构成了一个独立的开发分支。这种架构安排让不少人推测,Model 1很可能就是下一代旗舰模型DeepSeek-V4的内部开发代号,或是其首个工程验证版本。

通过对代码的深入分析,其核心改进主要体现在以下几个关键技术方向:

1、架构回归标准化:MLA注意力头维度从V3的576调整为512,这一改动可能是为了更好地适配Blackwell架构的SM100计算单元,同时优化潜在特征的压缩效率与算力对齐。
2、面向Blackwell的深度优化:新增了针对SM100的专用计算内核,B200需要CUDA 12.9环境支持。优化后,稀疏MLA在B200上的算力可达350 TFLOPs,而密集MLA在H800上更是达到了660 TFLOPs。
3、Token级别的稀疏MLA:引入了稀疏与稠密并行的解码机制,KV缓存采用FP8存储结合BF16计算,显著降低了长上下文场景下的显存占用与推理成本。
4、新机制增强长上下文能力:加入了VVPA模块以改善长程位置信息衰减问题,并结合Engram记忆机制对KV缓存与存储吞吐进行了联合优化。

消息传出后,在社交媒体上引发了广泛猜测。许多网友认为,Model 1很可能就是传闻中DeepSeek计划在春节前后发布的全新模型的内部代号。
那么,你觉得这个神秘的新模型,最终会以DeepSeek-V4的身份亮相吗?
相关攻略
机器之心发布一款 “反直觉” 的产品,往往最能折射一个产业的真实需求。3 月 25 日,硅心科技(aiXcoder)发布了一款专为「代码变更应用」场景设计的高性能、轻量级模型 aiX-apply-4
3月26日消息,从华盛顿到华尔街再到硅谷,美国政界、金融界及科技界基本上都达成共识,绝不能让中国公司在AI上领先,必须确保美国的优势。然而他们的普遍做法是封杀芯片、软件等技术、产品出口,以为这种方式
梦晨 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek,一口气开放17个招聘岗位。最核心研发岗聚焦Agent,覆盖算法研究、数据评测、基础设施全链条。仔细阅读每个岗位的要求,发现两个有意
文章转载于腾讯科技作者:苏扬最近关于Token的讨论挺魔幻的。朋友圈随处能看到Token中文翻译的讨论——有 "词元 "、 "智元 "等等,甚至有 "慧根 "之类的搞笑版本。Token不是一个新概念,大模型落地
头图由AI生成智东西作者 王涵编辑 冰倩智东西3月25日报道,今天,北大系AI编程创企硅心科技(aiXcoder)推出轻量级模型aiX-apply-4B,该模型支持256K上下文,参数量仅4B,一张
热门专题
热门推荐
vivo浏览器清理书签有三种方法:一、书签管理界面多选删除;二、备份有用书签后清空全部再重添;三、导出HTML文件在电脑编辑后重新导入。如果您在使用 vivo 浏览器时发现书签列表
在当今数字化教学的时代,组卷网app为教师们提供了强大的教学辅助功能。其中,创建班级是利用该app开展教学活动的重要第一步。下面就详细介绍一下如何在组卷网app上创建班级。打开组卷
1 点击开始游戏;2 打开后,继续点击本地联机;3 找到房间,点击开启局域网;4 然后点击右上角的分享;5 最后找到想要邀请的好友,点击邀请,好友同意后就可以进入自己创建的房间。详
头号禁区山城钥匙怎么获取?在游戏中有许多优质的资源,而这些资源基本上都在上锁的房间里面。一旦在打开之后就可以获得金币箱,高级物资,还有稀有的武器配件,但玩家就需要先获取头号禁区山城
波波浏览器已保存密码需通过身份验证才能查看明文:一、在设置→隐私与安全→已保存的密码中验证后点击眼睛图标显示;二、在已填充登录页点击密码框右侧眼睛图标并验证后实时显示;三、确保密码





