来源:环球网
【环球网科技综合报道】据ITPro独家消息,DeepSeek计划在今年2月农历新年期间,推出其新一代旗舰AI模型DeepSeek-V4。这款新型号将采用全新的技术架构,其代码能力有望得到大幅增强,从而引发业界的广泛关注。
1月20日,正值DeepSeek-R1模型发布一周年之际,有开发者在GitHub平台发现,DeepSeek更新了一系列与FlashMLA相关的代码。在涉及的114个文件中,有28处明确提到了一个未知的“MODEL1”大型模型标识符。该标识符与现有模型“V32”(即DeepSeek-V3.2)被并列或区分引用。通过对代码上下文的分析,技术人士推测,“MODEL1”很可能对应一款采用全新架构的AI模型,其核心技术特征与现有模型存在明显差异。

具体而言,新架构在键值缓存布局、稀疏性处理方式以及FP8数据格式解码支持等关键技术环节进行了优化调整。这些技术创新针对性地解决了模型运行时的内存占用与计算效率问题,为性能提升奠定了坚实基础。
值得关注的是,DeepSeek研究团队此前已连续发布两篇技术论文,分别提出了名为“优化残差连接”的创新训练方法,以及受生物学启发研发的“AI记忆模块”。业内普遍预测,即将发布的DeepSeek-V4有望整合这些最新研究成果,进一步释放AI模型在处理复杂任务时的潜力。
