DeepSeek团队已正式确认V4版本的上线时间——2026年7月中旬,这款备受业界期待的正式版将如期与用户见面。根据现有信息,此次发布在功能完整度、响应效率和系统稳定性方面均实现了显著提升。
更值得关注的是,与正式版一同推出的全新API计费机制——峰谷定价模式。简单来说,系统会根据调用时段的繁忙程度动态调整价格:上午9点至12点、下午2点至6点的高峰时段,费用翻倍;其余时段则维持预览版的基准费率。这套定价逻辑旨在通过价格杠杆引导算力资源均衡使用,缓解高峰拥堵,从而保障服务的持续稳定运行。
具体价格方面,高峰时段轻量版V4-Flash的输入费用为每百万token两元,缓存命中时可降至0.02元,输出费用为每百万token四元。旗舰版V4-Pro因算力需求更高,输入定价为每百万token六元(缓存命中时为一元),输出为每百万token十二元。对于高频调用用户而言,合理规划调用时段可大幅节省成本,差异十分显著。
算力资源的分配既是技术挑战,也是经济课题。峰谷定价背后的设计思路,实际上也在回应一个更深层的问题:不同类型的模型究竟更适合哪些应用场景?
回顾今年4月24日开放的DeepSeek V4预览版,该版本同时进行了开源。其最突出的亮点是“百万级上下文”——支持最长一百万token的上下文处理能力。在智能体协同、知识理解与复杂推理等关键维度上,预览版的表现已位居国内乃至开源模型的前列。
V4系列按规模分为两个版本,均采用MoE混合专家架构。旗舰型号V4-Pro总参数量达1.6万亿,单次激活参数约490亿,专为高复杂度任务设计;轻量版V4-Flash总参数2840亿,激活参数130亿,在性能与计算成本间取得了更务实的平衡。两个版本均原生支持百万token上下文,并遵循MIT开源协议,允许开发者自由商用及二次开发。
技术层面上,V4系列引入的全新注意力机制值得重点关注。该机制在token维度实现了高效压缩,结合DSA稀疏注意力方案,大幅降低了计算负载和显存占用。实测数据显示,在处理百万token任务时,推理计算量仅为前代V3.2的27%,显存占用更是降至十分之一。这一优化对于长文本处理、智能体应用和代码生成等场景,具有实质性的价值。
最后值得一提的是:随着下半年新一代昇腾950芯片的大规模交付,V4-Pro版本的综合使用成本还将进一步降低。算力成本的变化远未尘埃落定。目前,V4预览版已可通过官方网站、移动应用、API接口及本地化部署等多种方式接入,感兴趣的开发者不妨提前体验。
