Kimi走红GLM遇冷Claude或被超越

时间：2026-05-29 11:20

实测显示，Kimi2 5在第三方平台表现异常，但官方工具下性能正常，完成编程任务仅需10分钟，快于ClaudeCode。国产模型性价比突出，但绝对实力仍落后于国外顶尖模型，仍需不断改进。

最近在AI编程领域，有一款模型备受关注，那就是Kimi k2.5。起初听到有人说它的表现超越了Claude，我持保留态度。不过，OpenClaw和OpenRouter两个平台的数据引起了我的注意——数据显示，Kimi k2.5已成为“龙虾”平台中用量最大的模型，OpenRouter官方也确认了这一变化。这激起了我的兴趣：它究竟强在哪里？

经验告诉我们，实践是检验模型实力的最佳方式。因此，我昨天抽空进行了一次完整的实测，整个过程可谓跌宕起伏。从一开始的令人血压升高，到最终发现它确有独到之处。今天，我将整个体验过程拆解成几个部分，分享给正在关注AI编程工具选型的读者。

第一轮测试：水土不服还是能力不足？

要测试模型，首先得找到合适的运行环境。在Kimi官网没有直接找到编程套餐入口，只看到API充值选项，暂时不想付费。于是转向火山引擎的Coding Plan，它已集成最新的Kimi k2.5，我直接切换模型并接入Claude Code开始测试。

第一轮测试的结果，只能用“糟糕”来形容。

需求很简单：在桌面创建一个文件夹，测试其Shell命令调用能力。结果它不但没有创建成功，还完全输出了一堆错误信息，甚至夹杂表情包。也许是偶然失误？再给它一次机会，结果依旧失败。看看它输出的命令就能明白错得有多离谱：在Windows环境下，它居然尝试使用“/nmt”这样的Linux路径，仿佛默认用户活在Ubuntu系统中，最终当然什么也没办成。

为了排除Claude Code集成环境的干扰，我将后端模型换成GLM-4.7，其他条件保持不变。结果GLM-4.7一次性成功。

到这里，确实会让人怀疑这个号称“超越Claude”的模型是否只是徒有其表。但直觉告诉我，2026年的主流AI编程模型不该如此不济。抱着谨慎的态度，我使用免费的Trae平台上的Kimi k2.5再测一次，结果完全正常。这就有意思了。

为了验明正身，我只好去官网深挖，终于找到了Kimi Code。原来他们有自己专有的编程套餐和编程智能体CLI。既然第三方平台测试可能存在偏差，在官方工具上直接跑一次无疑是最佳选择。于是立即开通套餐，安装了官方CLI。这个CLI的界面设计得还挺清新简约。

真相大白：平台差异不容忽视

安装好原汁原味的官方工具后，我立刻测试了刚才的文件夹创建任务。

这次表现就完全正常了。可以看到它正确调用了Shell工具，使用了合适的`mkdir`指令，在正确的路径下成功创建了文件夹。这才是AI编程模型应有的表现。那么，最初的问题究竟出在哪里？只能归因于火山引擎平台可能存在的优化欠缺或“偷工减料”。

这里稍微吐槽一下。这个平台的套餐我用了三个月，其速度和编码质量确实不敢恭维。对比GLM-4.7官方套餐，不仅速度慢一倍，效果也差一截。更令人困惑的是，切换模型居然要到后台手动操作，连开启“思考”（thinking）模式的选项都很难找到资料。这样的用户体验，确实一言难尽。

实测表现：官方工具下的真实水平

有了官方CLI，终于可以挑战一些有难度的任务了。我采用一个经典的测试需求——一个看似简单的指令，但很多模型都会在此折戟。

此前的测试数据显示，Claude Code完成这个需求大约需要十几分钟；GLM约20分钟；火山上其他模型基本需要40分钟以上，甚至无法启动。而Kimi Code呢？只用了10分钟出头。

这个速度非常亮眼。而且整个运行过程相当干净，很少出现红色的错误提示。最终生成的网页结果也完全可以接受：功能模块基本完整，布局无明显Bug，动效流畅。虽然不是顶尖水平，但稍作修改就能直接使用。完成这个任务大约消耗了8%的区间配额。

接着，我又尝试将Kimi k2.5通过API接入到Claude Code中。配置过程很简单，通过`cc-switch`工具找到Kimi for Coding选项，填入API Key即可。启用配置后，给同样的需求，Claude Code轻松完成。它强大的工程能力毋庸置疑，最终反馈非常清晰，总结写得尤其出彩。最终网页效果也不错。这次测试耗时约13分钟，遇到一个小错误但自动解决了，配额消耗约21%。虽然自家工具在配额优化上更胜一筹，但这次接入Claude Code的表现同样可圈可点。

测试用的是最低档的Andante会员（49元/月），使用的就是其最新的旗舰模型K2.5。从整体使用体验来看，效果不错。

最后，我参考了一下大模型竞技场Code Arena的评分，这个评分可能更接近真实水平。目前Kimi k2.5排名第五，GLM-4.7第七，MiniMax第八。从绝对实力来看，Claude Opus 4.5、GPT-5.2-high、Gemini 3 Pro仍然领先国产模型，说Kimi k2.5比Claude Opus强，是不客观的。但国产模型的编程套餐价格普遍在50元以内，相比20美元/月的国外产品，性价比优势明显。

目前大概就是这样一种局面：国产AI编程模型的能力在持续提升，性价比在上升，但绝对实力仍有差距。未来有机会，可以再深度对比一下GLM-4.7和Kimi k2.5，或者把Kimi k2.5直接配置到OpenClaw里玩玩。在AI编程领域，国外模型已经完全可用，国内模型也基本可用，接下来就看开源模型能否直接派上用场。2026年，注定精彩纷呈。

来源：https://juejin.cn/post/7602982045139255342

Claude

上一篇年终工作总结PPT撰写方法及范文提示词 下一篇教师如何利用AI轻松高效制定教研工作计划

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年，内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化，八个坑一个比一个深。今天把这些实战经验整理出来，希望能帮正在内网搞自动化的兄弟们少踩点雷。一、内网无网络环境怎么部署RPA流程：先搞清楚什么叫“真离线” 很多工具宣传“支持本

AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季水利工程师AI提效实战：用WorkBuddy撰写洪水影响评价报告，效率提升3倍 WorkBuddy 效率人工智能开发工具一、我是谁，为什么需要AI 先介绍一下自己——我是一名水利工程师，在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘想实时掌握日志服务加工功能的运行状态？直接从加工列表页点击那个“规则洞察”按钮，仪表盘就会立刻呈现出来。入口就在那儿，不绕弯子。跳转后，你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图，展示的是当前实例ID（90c9d47714dbb807d47c1

AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰，资产数量动辄数千件，且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈：采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签，识别距离通常不超过30厘米，操作人员需逐个寻找并扫描，盘点效率完全受限于人力。面对5

AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动，这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲，还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具，借助AI替你分担这些重复性工作。背景：盯盘的核心痛点股民都有同感——每天不只要查询单只股票的实时行情，还