1月21日,据外媒 The Information 引述知情人士透露,深度求索公司有望在农历新年期间发布其新一代旗舰AI模型——DeepSeek-V4。据悉,新模型将显著提升代码生成与辅助编程的能力。
就在1月20日,恰逢DeepSeek-R1发布一周年之际,有开发者在GitHub开源仓库中留意到,项目方批量更新了FlashMLA相关代码。在总计114个文件中,多达28处提及了一个此前未知的“MODEL1”标识符。
这一新标识符与已知的现役模型“V32”(即DeepSeek-V3.2)被并列或区别引用。结合代码上下文分析,“MODEL1”很可能代表着一个有别于现有架构的全新模型版本。
开发者分析指出,“MODEL1”与“V32”在关键技术路径上存在差异,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。这些区别暗示新架构可能在内存优化和计算效率上进行了针对性设计。
此前,深度求索研究团队已于近日陆续发布了两篇技术论文,分别介绍了一种名为“优化残差连接”(mHC)的新训练方法,以及一种受生物学启发的“AI记忆模块”(Engram)。技术社区推测,正在开发中的新模型或有望整合这些前沿研究成果。
