此前,技术团队已充分验证了中小型语言模型的部署表现——在RTX 5000 Ada与RTX 5880 Ada显卡上运行DeepSeek 7B、14B、32B等模型时,其并发性能与部署效率均取得了不错的成果。不过,真正的核心挑战一直悬而未决:DeepSeek 满血版 671B,在8卡H20环境下究竟能承载多大的并发访问量?
近日,这一关键测试终于完成落地。测试平台配备了8张NVIDIA H20(单卡显存141GB,合计1128GB),搭配英特尔至强Platinum 8480+双路CPU、2TB DDR5内存以及3.84TB硬盘。推理框架采用vllm。下面直接呈现实测结果。
我们针对两个最具代表性的使用场景进行了压力测试:一是问答对话场景,二是模拟RAG(检索增强生成)场景。

场景一:问答对话
该场景相对简单:模型直接根据用户问题给出回答,通常依赖预定义规则或从知识库进行轻量检索即可完成。压力测试结果显示,当并发数控制在80以内时,吞吐率稳定保持在9 tokens/s以上。对于日常企业级对话应用而言,这一性能表现已相当充裕。
场景二:模拟RAG
RAG场景则复杂得多:需要先检索外部知识库,再结合生成模型输出精准答案,对算力的消耗显著增大。实际测试表明,该配置基本能支撑32个并发连接,吞吐率维持在6 tokens/s以上。简而言之,文档检索与内容输出均十分流畅,用户体验不会出现明显卡顿。
测试小结
问答对话:80并发以内,tokens/s>9
模拟RAG:32并发以内,tokens/s>6
后端服务全程稳定运行,配合前端实际体验极为顺畅,延迟极低
总体而言,采用8卡H20这套配置来部署DeepSeek 671B,完全能够满足企业日常的高并发需求。如果你计划上线满血版671B,这套方案可以直接采纳。
