DeepSeek Model1曝光:V4内部代号或为新一代模型
DeepSeek在GitHub上更新了FlashMLA代码库,一个名为Model1的新模型引发了广泛关注。这款Model1与现有的V32模型同时出现在代码库中,在新版代码的114个文件中被提及了28次。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
出品 | 51CTO技术栈
在DeepSeek R1发布一周年之际,DeepSeek悄然在其GitHub代码库中上线了一个神秘的新模型Model1。

最近,DeepSeek对GitHub上的FlashMLA代码进行了更新,其中出现的Model1模型迅速成为技术圈热议的焦点。这款Model1与V32作为两个独立模型同时出现,在新版代码的114个文件中被提及多达28处。

V32指的是DeepSeek-V3.2版本,而Model1在代码库中是一个与V32并列且独立的分支。从代码结构可以合理推断,Model1很可能是DeepSeek下一代旗舰模型DeepSeek-V4的内部开发代号或首个工程版本。

通过对代码的深入分析,其核心差异主要体现在以下几个方面:
1、架构回归标准化:MLA的head_dim从V3的576回归到512维,这可能是为了更好地适配Blackwell架构并优化潜在压缩与算力对齐。

2、面向Blackwell深度优化:新增SM100专用算子,B200需要CUDA 12.9支持;Sparse MLA在B200上已达到350 TFLOPs,H800上的Dense MLA则达到660 TFLOPs。
3、Token级稀疏MLA:引入稀疏/稠密并行解码机制,KV Cache采用FP8存储加BF16计算,显著降低长上下文显存占用与推理成本。

4、新机制增强长上下文处理:加入VVPA改善位置信息衰减问题,并配合Engram机制进行KV存储与吞吐优化。
在技术社区,不少开发者已经开始猜测,Model1很可能就是传闻中DeepSeek即将在春节前后发布的新模型的内部代号。
那么,各位技术大咖们,你们认为这个新模型会是DeepSeek-V4吗?
相关攻略
最新一期“全媒介之星”中国TOP 20 AI应用榜单显示,春节期间的红包大战以前所未有的力度重排了中国AI App头部格局,并带动头部产品月活整体上冲。其中,千问月活用户规模一举超越DeepSeek
机器之心发布一款 “反直觉” 的产品,往往最能折射一个产业的真实需求。3 月 25 日,硅心科技(aiXcoder)发布了一款专为「代码变更应用」场景设计的高性能、轻量级模型 aiX-apply-4
3月26日消息,从华盛顿到华尔街再到硅谷,美国政界、金融界及科技界基本上都达成共识,绝不能让中国公司在AI上领先,必须确保美国的优势。然而他们的普遍做法是封杀芯片、软件等技术、产品出口,以为这种方式
梦晨 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek,一口气开放17个招聘岗位。最核心研发岗聚焦Agent,覆盖算法研究、数据评测、基础设施全链条。仔细阅读每个岗位的要求,发现两个有意
文章转载于腾讯科技作者:苏扬最近关于Token的讨论挺魔幻的。朋友圈随处能看到Token中文翻译的讨论——有 "词元 "、 "智元 "等等,甚至有 "慧根 "之类的搞笑版本。Token不是一个新概念,大模型落地
热门专题
热门推荐
可通过电子税务局 、随申办App 小程序、个税APP三种方式查询下载个税纳税记录:电子税务局需登录后搜索或按路径进入,下载PDF用身份证后6位解密;随申办依托统一认证,支持直接保存
3月26日,在SEMICON China 2026“半导体智能制造-未来工厂”论坛上,一场关于半导体制造AI未来形态的思想碰撞引发行业瞩目。智现未来董事长兼CEO管健博士受邀登台,发表题为《从“+A
南都讯 记者李洁琼 3月28日,珠海天际航空科技有限公司在金湾区天章产业园开业。作为珠海低空经济产业的新锐力量,天际航空智能制造基地的投运,标志着金湾区在载人级飞行器制造领域迈出关键一步,为珠海“天
来源:中国新闻网中新社杭州3月27日电 (鲍梦妮)随着机器人产业发展以及春晚机器人表演等热点带动,今年以来,中国多地机器人租赁业务持续升温。在上海上线的全球首个开放式机器人租赁平台“擎天租”,自去年
大象新闻·大象财富记者 李莉 张迪驰315消费者权益日刚过,广东李女士在某平台购买的“全新”打印机频繁报错,维修无果。她查询最新质保发现,整机标注保修三年,系统却显示剩余保修期不足两年,经售后核实确





