首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Kimi长文本AI测评:性价比超Claude 4.5四倍,K2.5排名第五

Kimi长文本AI测评:性价比超Claude 4.5四倍,K2.5排名第五

热心网友
77
转载
2026-01-28

在知名第三方测评机构Artificial Analysis最新公布的大模型排名中,Kimi K2.5总体位列第五。具体得分如下:GPT5.2High得分为51,Claude Opus 4.5为50,GPT5.2CodexHigh为49,Gemini3 ProHigh为48,Kimi K2.5则为47分。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

核心看点总结如下:

➜在智能体任务上表现优异:

Kimi K2.5在GDPval-AA评估中获得了1309的Elo评分,表现仅次于OpenAI和Anthropic的顶级模型,其成绩远超GLM-4.7、DeepSeek V3.2以及Gemini 3 Pro。GDPval-AA是衡量大模型核心通用智能表现的关键指标,主要用于评估大模型在实际知识工作(例如准备演示文稿和进行分析任务)中的表现。在测评中,模型通过一个名为Stirrup的智能体框架,在一个模拟智能体环境中获得了系统shell访问权限和网页浏览功能,并完成相关任务。

➜原生多模态首次实现:

Kimi K2.5是Moonshot公司首款支持图像和视频输入的原生多模态旗舰模型。作为领先的开源大模型,这是其首次实现对图像输入的原生理解能力,这在一定程度上消除了开源模型在关键应用场景上相对于前沿实验室私有模型的一个关键障碍。与DeepSeek V3.2、GLM-4.7、MiniMax M2.1和MiMo-V2-Flash等领先的开源模型相比,Kimi K2.5凭借此特性脱颖而出。在MMMU Pro视觉推理基准测试中,Kimi K2.5得分率为75%,略低于Gemini 3 Pro,但与GPT-5.2和Claude Opus 4.5的表现持平。

➜运行成本颇具竞争力:

在衡量模型综合运行成本的关键指标“运行人工智分”中,Kimi K2.5的得分为371美元,这意味着其成本比Claude Opus 4.5和GPT-5.2便宜4倍以上,但比DeepSeek V3.2和GPT-OSS-120b要贵5倍以上。

➜适中的推理令牌消耗:

Kimi K2.5的token消耗量处于同级别大模型的合理区间。在“人工智分”评估套件中,其推理过程使用了约8200万个推理token。这一数字略低于Kimi K2 Thinking(约9500万个推理令牌),远低于GLM 4.7(约1.6亿个推理令牌)。

➜实现混合推理架构:

Kimi K2.5将Moonshot的思考推理模式和非思考推理模式统一集成到一个模型架构中。本次评估已对开启推理功能的K2.5进行评估(关于关闭推理功能后的模型表现结果也将很快公布)。

➜保持较低的幻觉率:

Kimi K2.5在AA全知指数(该指标综合衡量模型的知识准确性及幻觉率)中得分为-11。这一分数主要源于其相对较低的幻觉率,仅为64%(低于Kimi K2 Thinking的74%),表明当模型对答案不确定时,Kimi K2.5更倾向于回避问题,而不是捏造信息。



来源:https://www.163.com/dy/article/KKCDOGJF05566VQ3.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

在 OpenClaw 中配置本地化部署的大模型
AI
在 OpenClaw 中配置本地化部署的大模型

在 OpenClaw 中配置本地大模型:原理与两大实战方案 想让 OpenClaw 调用你本地部署的大模型?核心思路其实很清晰:让 OpenClaw 把一个类似 OpenAI 的 API 接口,对接上你本机运行的模型服务。下面我们就来聊聊两种主流的实现路径和关键配置细节,帮你快速上手。

热心网友
03.31
OpenClaw在ARM架构Linux环境下的浏览器配置
AI
OpenClaw在ARM架构Linux环境下的浏览器配置

在Linux(特别是ARM64架构)上为OpenClaw配置浏览器的完整指南 在Linux服务器上部署像OpenClaw这样的自动化工具时,浏览器的配置往往是一个容易被忽略、但又至关重要的环节。尤其在非桌面版环境中,默认不安装浏览器,如果事先没处理好,OpenClaw调用浏览器的功能就会直接“罢工”

热心网友
03.31
谷歌AI揭秘:真正智慧源于群体协作,而非单打独斗
科技数码
谷歌AI揭秘:真正智慧源于群体协作,而非单打独斗

这项由谷歌智能范式团队联合芝加哥大学、圣塔菲研究所等多家机构完成的突破性研究发表于2026年3月,研究编号为arXiv:2603 20639v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。这

热心网友
03.31
360智能体揭露OpenClaw高危漏洞,安全防御需警惕
科技数码
360智能体揭露OpenClaw高危漏洞,安全防御需警惕

新京报贝壳财经讯(记者罗亦丹)记者3月31日获悉,360数字安全集团依托自主研发的360多智能体协同漏洞挖掘系统(简称:360漏洞挖掘智能体),在OpenClaw平台中成功发现一处高危漏洞——MED

热心网友
03.31
京东直播新动作:刚需复杂指令与自由态数字人如何升级
AI
京东直播新动作:刚需复杂指令与自由态数字人如何升级

编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪

热心网友
03.31

最新APP

铁锈战争
铁锈战争
棋牌策略 03-31
你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29

热门推荐

Sharkoon 旋刚推出双模全配列机械键盘 OfficePal K70W
科技数码
Sharkoon 旋刚推出双模全配列机械键盘 OfficePal K70W

Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了

热心网友
03.31
风车动漫观看指南:正版入口与在线平台推荐
电脑教程
风车动漫观看指南:正版入口与在线平台推荐

风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫

热心网友
03.31
什么是晨星烛台形态?晨星蜡烛图形态详细介绍
web3.0
什么是晨星烛台形态?晨星蜡烛图形态详细介绍

什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形

热心网友
03.31
小红书官网登录入口查找与登录指南
手机教程
小红书官网登录入口查找与登录指南

在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红

热心网友
03.31
曝苹果2026年还将发布十多款新品 iPhone Fold领衔
iphone
曝苹果2026年还将发布十多款新品 iPhone Fold领衔

曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio

热心网友
03.31