9月18日,开发者ionutvi推出了一款名为AI Benchmark Tool的评测工具,旨在评估主流人工智能模型在实际应用中的表现,特别是衡量其在执行任务时可能出现的不稳定或低效行为。该工具主要面向编程人员,帮助他们在众多AI服务中挑选出准确率更高、更具成本效益的解决方案。
ionutvi指出,在日常使用如ChatGPT、Grok、Claude等大型语言模型的过程中,他发现这些模型有时会出现性能波动:同一项任务在不同时间执行,结果可能截然不同,有的时候生成错误内容,甚至无故拒绝响应。尽管许多用户将此类问题归咎于自身操作,但实际上,这类现象可能源于服务商对模型运行策略的调整。此前已有相关企业公开承认存在主动调节模型输出能力的情况。
为应对这一问题,该开发者设计了这套自动化评测系统。工具会在多个主流AI模型上运行共计140项涉及代码生成、调试与优化的任务,从回答准确性、拒绝响应频率、响应速度以及表现稳定性等多个维度进行综合打分,并据此对各模型进行排名。
此外,评测体系还纳入了各AI服务的计费标准,结合实际使用效率计算出每项模型的真实使用成本。例如,某些模型虽单次调用价格较低,但因输出质量不稳定,往往需要反复迭代十次以上才能获得可用结果;而另一些模型虽然单价较高,但通常只需两到三次尝试即可达成目标,整体效率更高。通过这种综合评估方式,用户可以更清晰地判断哪款AI工具在特定场景下更具性价比。
该项目目前已开放源代码,供社区查阅与使用。
