游乐游手机版
首页/AI教程/文章详情

Kimi走红GLM遇冷Claude或被超越

时间:2026-05-29 11:20
实测显示,Kimi2 5在第三方平台表现异常,但官方工具下性能正常,完成编程任务仅需10分钟,快于ClaudeCode。国产模型性价比突出,但绝对实力仍落后于国外顶尖模型,仍需不断改进。

最近在AI编程领域,有一款模型备受关注,那就是Kimi k2.5。起初听到有人说它的表现超越了Claude,我持保留态度。不过,OpenClaw和OpenRouter两个平台的数据引起了我的注意——数据显示,Kimi k2.5已成为“龙虾”平台中用量最大的模型,OpenRouter官方也确认了这一变化。这激起了我的兴趣:它究竟强在哪里?

经验告诉我们,实践是检验模型实力的最佳方式。因此,我昨天抽空进行了一次完整的实测,整个过程可谓跌宕起伏。从一开始的令人血压升高,到最终发现它确有独到之处。今天,我将整个体验过程拆解成几个部分,分享给正在关注AI编程工具选型的读者。

第一轮测试:水土不服还是能力不足?

要测试模型,首先得找到合适的运行环境。在Kimi官网没有直接找到编程套餐入口,只看到API充值选项,暂时不想付费。于是转向火山引擎的Coding Plan,它已集成最新的Kimi k2.5,我直接切换模型并接入Claude Code开始测试。

第一轮测试的结果,只能用“糟糕”来形容。

需求很简单:在桌面创建一个文件夹,测试其Shell命令调用能力。结果它不但没有创建成功,还完全输出了一堆错误信息,甚至夹杂表情包。也许是偶然失误?再给它一次机会,结果依旧失败。看看它输出的命令就能明白错得有多离谱:在Windows环境下,它居然尝试使用“/nmt”这样的Linux路径,仿佛默认用户活在Ubuntu系统中,最终当然什么也没办成。

为了排除Claude Code集成环境的干扰,我将后端模型换成GLM-4.7,其他条件保持不变。结果GLM-4.7一次性成功。

到这里,确实会让人怀疑这个号称“超越Claude”的模型是否只是徒有其表。但直觉告诉我,2026年的主流AI编程模型不该如此不济。抱着谨慎的态度,我使用免费的Trae平台上的Kimi k2.5再测一次,结果完全正常。这就有意思了。

为了验明正身,我只好去官网深挖,终于找到了Kimi Code。原来他们有自己专有的编程套餐和编程智能体CLI。既然第三方平台测试可能存在偏差,在官方工具上直接跑一次无疑是最佳选择。于是立即开通套餐,安装了官方CLI。这个CLI的界面设计得还挺清新简约。

真相大白:平台差异不容忽视

安装好原汁原味的官方工具后,我立刻测试了刚才的文件夹创建任务。

这次表现就完全正常了。可以看到它正确调用了Shell工具,使用了合适的`mkdir`指令,在正确的路径下成功创建了文件夹。这才是AI编程模型应有的表现。那么,最初的问题究竟出在哪里?只能归因于火山引擎平台可能存在的优化欠缺或“偷工减料”。

这里稍微吐槽一下。这个平台的套餐我用了三个月,其速度和编码质量确实不敢恭维。对比GLM-4.7官方套餐,不仅速度慢一倍,效果也差一截。更令人困惑的是,切换模型居然要到后台手动操作,连开启“思考”(thinking)模式的选项都很难找到资料。这样的用户体验,确实一言难尽。

实测表现:官方工具下的真实水平

有了官方CLI,终于可以挑战一些有难度的任务了。我采用一个经典的测试需求——一个看似简单的指令,但很多模型都会在此折戟。

此前的测试数据显示,Claude Code完成这个需求大约需要十几分钟;GLM约20分钟;火山上其他模型基本需要40分钟以上,甚至无法启动。而Kimi Code呢?只用了10分钟出头。

这个速度非常亮眼。而且整个运行过程相当干净,很少出现红色的错误提示。最终生成的网页结果也完全可以接受:功能模块基本完整,布局无明显Bug,动效流畅。虽然不是顶尖水平,但稍作修改就能直接使用。完成这个任务大约消耗了8%的区间配额。

接着,我又尝试将Kimi k2.5通过API接入到Claude Code中。配置过程很简单,通过`cc-switch`工具找到Kimi for Coding选项,填入API Key即可。启用配置后,给同样的需求,Claude Code轻松完成。它强大的工程能力毋庸置疑,最终反馈非常清晰,总结写得尤其出彩。最终网页效果也不错。这次测试耗时约13分钟,遇到一个小错误但自动解决了,配额消耗约21%。虽然自家工具在配额优化上更胜一筹,但这次接入Claude Code的表现同样可圈可点。

测试用的是最低档的Andante会员(49元/月),使用的就是其最新的旗舰模型K2.5。从整体使用体验来看,效果不错。

最后,我参考了一下大模型竞技场Code Arena的评分,这个评分可能更接近真实水平。目前Kimi k2.5排名第五,GLM-4.7第七,MiniMax第八。从绝对实力来看,Claude Opus 4.5、GPT-5.2-high、Gemini 3 Pro仍然领先国产模型,说Kimi k2.5比Claude Opus强,是不客观的。但国产模型的编程套餐价格普遍在50元以内,相比20美元/月的国外产品,性价比优势明显。

目前大概就是这样一种局面:国产AI编程模型的能力在持续提升,性价比在上升,但绝对实力仍有差距。未来有机会,可以再深度对比一下GLM-4.7和Kimi k2.5,或者把Kimi k2.5直接配置到OpenClaw里玩玩。在AI编程领域,国外模型已经完全可用,国内模型也基本可用,接下来就看开源模型能否直接派上用场。2026年,注定精彩纷呈。

来源:https://juejin.cn/post/7602982045139255342
上一篇年终工作总结PPT撰写方法及范文提示词 下一篇教师如何利用AI轻松高效制定教研工作计划
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还