
2025年9月最新公布的中文大模型基准测评结果显示,谷歌新一代Gemini-3-Pro-Preview以70.80的综合得分位列全球第二。这一成绩较GPT-5(high)高出1.43分,但略低于GPT-5.1(high)1.71分。同期发布的Gemini-2.5-Pro则排名全球第七。
在推理效率方面,Gemini-3-Pro-Preview相较前代有所提升,平均答题响应时间从32.2秒缩短至31.9秒。不过其推理成本出现上涨,每百万Tokens处理费用由24.5元增至32.0元。
本次测评涵盖六大核心能力维度:数学推理、科学推理、代码生成(含网页开发)、智能体应用(支持多轮工具调用)、幻觉控制及指令遵循。分析数据显示,Gemini-3-Pro-Preview在幻觉控制方面表现优异,科学推理能力与GPT-5.1(high)持平,但在其余四项指标上均存在差距。
