在人工智能算力领域,硬件性能的基准测试日益复杂,更加注重实际应用场景的模拟。近期发布的行业首个智能体硬件基准测试AA-AgentPerf,为评估AI硬件的真实效能提供了全新视角,其评测结果也展示了当前市场领先者——NVIDIA Blackwell GPU的突出表现。

AA-AgentPerf由权威评测机构Artificial Analysis推出,与传统简单算力测试不同,该基准测试专门评估硬件运行AI智能体(Agent)时的综合性能。测试模拟了智能体在真实应用中执行的复杂任务链,包括自主分解目标、读写文件、修改代码以及运行测试等多轮循环操作。这种高频率的交互对服务器内存容量与调度效率构成了严峻挑战。
测试方法与性能对比
该基准测试通过回放真实编程轨迹来评估硬件性能,最终以每兆瓦功耗可支持的并发智能体数量作为核心能效指标。本次测试选用了参数规模达1.6万亿的DeepSeek V4 Pro大模型作为负载。结果显示,基于Blackwell架构的NVIDIA GB300 NVL72性能卓越,能够承载高达6.14万个智能体并发。
与此形成鲜明对比,上一代H200显卡在相同测试中仅能承载2600个并发智能体,这意味着Blackwell架构带来了近20倍的性能跃升。这一显著差距不仅彰显了架构迭代的成果,也体现了NVIDIA在复杂AI工作负载优化方面的深度进步。
市场竞争与未来展望
另一方面,AMD当前最强的MI355X显卡在此测试中的表现仍有较大提升空间。测试指出,随着输出速度的提升,其与领先者的差距将进一步扩大。分析人士认为,尽管MI355X的理论性能参数强劲,但其对DeepSeek V4 Pro等特定大模型的优化尚处于早期阶段,预计近期通过软件与驱动层面的优化,将能实现明显的性能增长。这也预示着AI算力市场的竞争将更加聚焦于软硬件协同与生态优化的深度。
