2月14日,据行业媒体报道,近期,DeepSeek的网页端和移动应用App正在测试全新的长文本模型架构,预计将支持高达100万字符的上下文长度。值得注意的是,其API服务目前保持稳定,版本仍为V3.2,上下文窗口维持在128K。
这一进展也被外界普遍解读为,DeepSeek可能计划在今年的春节期间,再次以“王炸”级产品发布新模型,复刻去年春节时引发的现象级行业轰动。
今年1月12日,DeepSeek曾联合发布一篇学术论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》。该论文由北京大学与DeepSeek的研究团队共同完成,梁文锋亦在作者之列。业内分析指出,这篇论文的核心直接指向当前大语言模型普遍存在的“记忆力”短板,创新性地提出了“条件记忆”这一解决思路。
当时,行业观察者就普遍预测,DeepSeek的下一代模型V4极有可能在今年春节前后正式亮相。
回顾去年12月1日,DeepSeek曾同时发布了两个正式版模型:DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale。目前,其最新的网页端、App及API均已更新为正式版 DeepSeek-V3.2。而Speciale版本目前仅通过临时API服务的形式开放,主要供社区进行深度评测与研究。
根据官方介绍,DeepSeek-V3.2的设计目标是平衡模型的推理能力与生成长度,更适用于日常交互场景,例如智能问答和通用智能体任务。在公开的推理性能基准测试中,DeepSeek-V3.2的表现已接近GPT-5的水平,仅略低于Gemini-3.0-Pro;与Kimi-K2-Thinking等注重长文本的模型相比,V3.2在输出长度上进行了大幅精简,这显著降低了计算资源消耗与用户等待时间。
