月之暗面Kimi K2.6开源发布代码能力对标GPT-5.4

时间：2026-06-08 13:57

4月21日消息，月之暗面公司正式发布了其旗舰模型Kimi K2 6，并同步公开了源代码。此次重大升级，在AI编程、长程任务执行以及Agent集群协作能力方面，实现了全面飞跃。即日起，用户便可通过官方网站、最新版客户端、API接口以及Kimi Code编程助手，直接体验这一最新成果。从最新披露的评测

4月21日消息，月之暗面公司正式发布了其旗舰模型Kimi K2.6，并同步公开了源代码。此次重大升级，在AI编程、长程任务执行以及Agent集群协作能力方面，实现了全面飞跃。即日起，用户便可通过官方网站、最新版客户端、API接口以及Kimi Code编程助手，直接体验这一最新成果。

从最新披露的评测数据来看，Kimi K2.6本次的表现令人瞩目。在博士级难度的“终极人类考试”完整版，以及评估真实软件工程能力的SWE-Bench Pro、Agent深度检索基准DeepSearchQA等核心测试中，该模型均取得了行业领先的成绩。与同类产品横向对比，其表现基本持平甚至优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。

长程编码能力：持续编程13小时无压力

作为月之暗面迄今为止最强的代码模型，K2.6在长程编码能力上的提升尤为显著。测试数据显示，它能不间断地持续编码长达13个小时，期间编写或修改超过4000行代码，完成复杂系统从开发到优化的全流程。这已不再是简单的修复错误或补充功能，而是具备了初级工程师级别的持续作业能力。

本次更新还带来一个重要变化：代码与视觉能力的深度融合。这意味着K2.6交付的不再是零散的代码片段，而是具备设计创意与专业水准的Web应用。在Kimi内部严格的Kimi Code Bench评测中，K2.6的成绩相比前代模型K2.5提升了约20%。

实测案例更能印证其强大能力。在一个考验真实工程能力的测试中，K2.6成功在Mac本地下载并部署了Qwen3.5-0.8B模型，随后使用相对小众的Zig语言来实现并优化模型推理。整个过程历经超过4000次工具调用，不间断运行超过12小时，前后迭代了14轮。最终，模型吞吐量从最初的约15 tokens/s，被优化至约193 tokens/s，这个速度比LM Studio还要快上20%。

另一个案例同样引人注目。K2.6对一个拥有8年历史、已接近性能极限的开源金融撮合引擎exchange-core，进行了深度重构。这项作业持续13小时，它迭代了12套优化策略，通过1000多次工具调用，精准修改了4000多行代码。最终结果是：中位吞吐量从0.43 MT/s跃升至1.24 MT/s，增幅高达185%；峰值吞吐量更是从1.23 MT/s飙升至2.86 MT/s，增幅133%。对于一个运营了8年的成熟引擎而言，这个提升幅度相当可观。

代码驱动设计：Agent不只是会写代码

在代码驱动设计方面，K2.6的Agent模式也展现出全新能力——它可以制作出富有设计感与视觉冲击力的前端页面。凭借对图像和视频生成工具的熟练调用，该Agent能生成视觉风格统一的高质量素材，构建视觉焦点突出的首屏区域，并实现各种交互元素与滚动触发动画效果。

月之暗面方面表示，这一能力并不局限于前端页面开发，同样支持基础的后端数据库模块开发，例如在网页中嵌入表单信息收集功能。换言之，这是一个具备全栈开发潜力的智能Agent。

为了验证这一能力，月之暗面还创建了一套专门的前端开发设计评测基准——Kimi Design Bench。该基准测试覆盖了视觉输入、落地页构建、全栈应用开发以及通用Web开发四个维度。与Google AI Studio中的Gemini 3模型相比，基于Kimi K2.6的Agent展现出明显的领先优势。

Agent集群能力：最多调度300个子Agent并行作业

Agent集群能力的升级，是本次更新的另一大亮点。K2.6支持动态拆解复杂任务，并自主生成专项Agent进行并行处理。目前，它最多可调度300个子Agent，并行完成4000个协作步骤。这意味着更大规模的并行化作业成为可能，任务完成度与交付质量相较K2.5有了显著提升。

具体而言，这个Agent集群能够将搜索、深度研究、文档分析和长文创作等能力进行组合。在单次运行中，它可以独立完成从文档到网页、再到PPT和表格的多产品端到端交付。这已不再是单一功能的简单堆叠，而是一个能够自主规划、分工协作、完成复杂项目的团队级能力。

例如，该集群曾针对全球100个半导体标的设计并执行了5套量化策略。更关键的是，它还将麦肯锡风格的PPT逻辑沉淀为可复用的技能，最终交付了详尽的建模表格和全套汇报演示文档，整个过程几乎无需人工介入。

另一个案例同样令人印象深刻：Agent集群将一篇包含大量视觉数据的天体物理论文，转化为了可复用的学术技能。它提取了论文的推理流程和可视化方法，产出了40页、7000字的研究论文，外加包含2万多条数据的结构化数据集，以及14张天文级别的图表。

从K2.5到K2.6，Agent的自主化执行能力明显增强，尤其是在与OpenClaw、Hermes Agent这类主动式Agent框架协同工作时，表现更为突出。这类场景要求AI能够跨应用实现24/7不间断运行，对上下文维持能力和错误恢复能力都是极大的考验。

月之暗面的RL基础设施团队进行了一项有趣的测试：使用基于K2.6的Agent实现连续5天自主运行，负责监控、故障响应和系统运维。结果显示，它展现出了持久的上下文维持能力、多线程任务处理能力，以及从接收告警到彻底解决的全流程执行能力。

根据Kimi内部Claw Bench的测试结果，K2.6相比K2.5综合性能提升了10%。这一提升覆盖了编程任务、即时通讯生态集成、信息检索与分析、定时任务管理及记忆调用五大维度。特别是在需要长时间自主运行、无需人工干预的工作流中，优势尤为突出。

技能系统：上百个预置技能即取即用

借助K2.6更强的代码和视觉理解能力，Kimi Agent模式现在支持创建和调用“技能”。系统已内置了上百个最新推荐技能，包括投研技能包——可一键生成专业排版的A股、港股、美股公司一页纸，或深度投资研报。

用户操作起来也十分便捷：在Kimi Agent模式下输入斜杠“/”，即可开始创建和调用技能。此外，Kimi Agent还支持“Office文档转技能”功能——上传高质量的Office文档后，模型会尝试理解原文档的结构与风格基因，生成专属的可复用文档创建技能。这意味着，一个好用的模板或报告结构，可以被快速固化为一个可供重复调用的技能。

Claw群组：多个Agent与人类实现真正协同

月之暗面同时宣布开启“Claw群组”的小范围内测。该群组的目标颇具雄心：让多个Agent与人类共同作为协作者协同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候Agent（首批支持OpenClaw，后续将加入对Hermes Agent等框架的支持）。每个Agent可携带各自的专业工具包、技能和持久化记忆上下文。

在这个群组中，K2.6扮演着协调者的角色：它会根据各个Agent的技能画像和可用工具，动态匹配任务。一旦某个Agent遇到故障或停滞，协调者会检测到中断，并自动重新分配任务或生成子任务。这一机制听起来简单，但实际意义重大——它意味着一个Agent团队的运作，不再完全依赖人工干预和调度。

Kimi Claw用户将陆续收到内测邀请，可以期待这一功能正式上线后的表现。

最后，关于开放情况：Kimi K2.6现已面向所有免费用户、付费订阅用户、Kimi Code和企业API用户开放。企业和开发者在Kimi API中指定模型为kimi-k2.6即可开始使用。

为庆祝K2.6模型API上线，Kimi开放平台同步开启了最高30%的限时充值赠送活动。同时，Kimi K2.6最新API已经首发登陆腾讯云TokenHub等平台。月之暗面推荐直接调用最新API以复现基准评测成绩；如需使用第三方API服务，也可以通过Kimi模型供应商验证服务，挑选精度更高的服务商。

来源：https://www.donews.com/news/detail/1/6520391.html

Kimi

上一篇马斯克转发国内FSD视频播放量超3600万朱晓彤想体验 下一篇2026年智能垃圾处理器推荐排行榜TOP5

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿