游乐游手机版
首页/科技数码/文章详情

Kimi长文本AI测评:性价比超Claude 4.5四倍,K2.5排名第五

时间:2026-01-28 17:04
著名独立评测机构Artificial Analysis最新模型排名来了,Kimi K2 5总体排名第五,GPT5 2high=51,Claude opus 4 5=50,GPT5 2codexhi

在知名第三方测评机构Artificial Analysis最新公布的大模型排名中,Kimi K2.5总体位列第五。具体得分如下:GPT5.2High得分为51,Claude Opus 4.5为50,GPT5.2CodexHigh为49,Gemini3 ProHigh为48,Kimi K2.5则为47分。

核心看点总结如下:

➜在智能体任务上表现优异:

Kimi K2.5在GDPval-AA评估中获得了1309的Elo评分,表现仅次于OpenAI和Anthropic的顶级模型,其成绩远超GLM-4.7、DeepSeek V3.2以及Gemini 3 Pro。GDPval-AA是衡量大模型核心通用智能表现的关键指标,主要用于评估大模型在实际知识工作(例如准备演示文稿和进行分析任务)中的表现。在测评中,模型通过一个名为Stirrup的智能体框架,在一个模拟智能体环境中获得了系统shell访问权限和网页浏览功能,并完成相关任务。

➜原生多模态首次实现:

Kimi K2.5是Moonshot公司首款支持图像和视频输入的原生多模态旗舰模型。作为领先的开源大模型,这是其首次实现对图像输入的原生理解能力,这在一定程度上消除了开源模型在关键应用场景上相对于前沿实验室私有模型的一个关键障碍。与DeepSeek V3.2、GLM-4.7、MiniMax M2.1和MiMo-V2-Flash等领先的开源模型相比,Kimi K2.5凭借此特性脱颖而出。在MMMU Pro视觉推理基准测试中,Kimi K2.5得分率为75%,略低于Gemini 3 Pro,但与GPT-5.2和Claude Opus 4.5的表现持平。

➜运行成本颇具竞争力:

在衡量模型综合运行成本的关键指标“运行人工智分”中,Kimi K2.5的得分为371美元,这意味着其成本比Claude Opus 4.5和GPT-5.2便宜4倍以上,但比DeepSeek V3.2和GPT-OSS-120b要贵5倍以上。

➜适中的推理令牌消耗:

Kimi K2.5的token消耗量处于同级别大模型的合理区间。在“人工智分”评估套件中,其推理过程使用了约8200万个推理token。这一数字略低于Kimi K2 Thinking(约9500万个推理令牌),远低于GLM 4.7(约1.6亿个推理令牌)。

➜实现混合推理架构:

Kimi K2.5将Moonshot的思考推理模式和非思考推理模式统一集成到一个模型架构中。本次评估已对开启推理功能的K2.5进行评估(关于关闭推理功能后的模型表现结果也将很快公布)。

➜保持较低的幻觉率:

Kimi K2.5在AA全知指数(该指标综合衡量模型的知识准确性及幻觉率)中得分为-11。这一分数主要源于其相对较低的幻觉率,仅为64%(低于Kimi K2 Thinking的74%),表明当模型对答案不确定时,Kimi K2.5更倾向于回避问题,而不是捏造信息。



来源:https://www.163.com/dy/article/KKCDOGJF05566VQ3.html
上一篇中国科学家研发航天员智能电子衣,精准可控给药革新太空健康 下一篇俞灏明转型高管IP之路:雷军、余承东的实战运营方略
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宇树验证具身智能新趋势核心战场不止于模型
科技数码 · 2026-07-01

宇树验证具身智能新趋势核心战场不止于模型

具身智能领域的竞争,正步入一个全新的发展阶段。近日,宇树科技正式发布了其WVLA2 0具身大模型,并公开展示了无需远程遥操的实机演示。这一举动向业界释放了一个明确信号:当前这场竞赛的核心壁垒,或许已不再是谁拥有更大的模型参数,而是谁的架构设计更为精巧、谁能更深度地实现软硬件一体化、谁能积累更海量的实

智元精灵G2机器人产线直播完成64828件成功率99.99%
科技数码 · 2026-07-01

智元精灵G2机器人产线直播完成64828件成功率99.99%

99 99%的任务成功率——这是智元机器人在6月23日至28日期间,将精灵G2机器人直接部署到真实的平板量产质检产线,并全程公开直播后,交出的最具说服力的答案。 让我们关注这场直播的硬核数据:连续64小时不间断作业,产线累计完成17625件产品检测,机器人累计执行64828次操作,任务成功率精确达到

纯电动Cayenne首秀保时捷驾驶中心全国路演
科技数码 · 2026-07-01

纯电动Cayenne首秀保时捷驾驶中心全国路演

保时捷正在加速推进其电动化转型战略。继纯电动Cayenne与Gen 3 Evo赛车在三亚街道赛共同亮相后,仅过了一周时间,这款全新纯电SUV便驶入中国专业赛道场景——这一次,地点换成了永久性专业赛道。 回顾2026年北京车展,保时捷首款纯电动Cayenne Turbo正式首发并公布了售价。新车提供两

AI工具能否成为高价志愿咨询纠纷的破局之道
科技数码 · 2026-07-01

AI工具能否成为高价志愿咨询纠纷的破局之道

广东高考成绩公布后,志愿填报这场“第二次大考”随即全面开启。对众多家庭而言,这或许比高考本身更令人心力交瘁——时间紧迫、信息庞杂、选项繁多,每一步都如履薄冰。教育部近日发布预警,严厉批评那些漫天要价的“志愿规划师”,直言其本质上就是忽悠。然而每年踩坑的案例仍屡见不鲜,网上信息真假混杂,不同机构给出的

头部企业全产业链布局锂电池回收循环
科技数码 · 2026-07-01

头部企业全产业链布局锂电池回收循环

近年来,伴随新能源汽车产业的爆发式增长,早期投入使用的动力电池正迎来集中退役高峰,锂电池回收行业因此进入一个至关重要的“窗口期”。这些退役电池中富含锂、钴等珍贵金属资源——尤其是被誉为“白色石油”的锂,正从地下矿藏逐渐转向我们身边的“城市矿山”,从“一次性使用”的线性消耗模式,迈向“循环再生”的可持