游乐游手机版
首页/业界动态/文章详情

月之暗面Kimi K2.6开源发布 代码能力对标GPT-5.4

时间:2026-06-08 13:57
4月21日消息,月之暗面公司正式发布了其旗舰模型Kimi K2 6,并同步公开了源代码。此次重大升级,在AI编程、长程任务执行以及Agent集群协作能力方面,实现了全面飞跃。即日起,用户便可通过官方网站、最新版客户端、API接口以及Kimi Code编程助手,直接体验这一最新成果。 从最新披露的评测

4月21日消息,月之暗面公司正式发布了其旗舰模型Kimi K2.6,并同步公开了源代码。此次重大升级,在AI编程、长程任务执行以及Agent集群协作能力方面,实现了全面飞跃。即日起,用户便可通过官方网站、最新版客户端、API接口以及Kimi Code编程助手,直接体验这一最新成果。

从最新披露的评测数据来看,Kimi K2.6本次的表现令人瞩目。在博士级难度的“终极人类考试”完整版,以及评估真实软件工程能力的SWE-Bench Pro、Agent深度检索基准DeepSearchQA等核心测试中,该模型均取得了行业领先的成绩。与同类产品横向对比,其表现基本持平甚至优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。

长程编码能力:持续编程13小时无压力

作为月之暗面迄今为止最强的代码模型,K2.6在长程编码能力上的提升尤为显著。测试数据显示,它能不间断地持续编码长达13个小时,期间编写或修改超过4000行代码,完成复杂系统从开发到优化的全流程。这已不再是简单的修复错误或补充功能,而是具备了初级工程师级别的持续作业能力。

本次更新还带来一个重要变化:代码与视觉能力的深度融合。这意味着K2.6交付的不再是零散的代码片段,而是具备设计创意与专业水准的Web应用。在Kimi内部严格的Kimi Code Bench评测中,K2.6的成绩相比前代模型K2.5提升了约20%。

实测案例更能印证其强大能力。在一个考验真实工程能力的测试中,K2.6成功在Mac本地下载并部署了Qwen3.5-0.8B模型,随后使用相对小众的Zig语言来实现并优化模型推理。整个过程历经超过4000次工具调用,不间断运行超过12小时,前后迭代了14轮。最终,模型吞吐量从最初的约15 tokens/s,被优化至约193 tokens/s,这个速度比LM Studio还要快上20%。

另一个案例同样引人注目。K2.6对一个拥有8年历史、已接近性能极限的开源金融撮合引擎exchange-core,进行了深度重构。这项作业持续13小时,它迭代了12套优化策略,通过1000多次工具调用,精准修改了4000多行代码。最终结果是:中位吞吐量从0.43 MT/s跃升至1.24 MT/s,增幅高达185%;峰值吞吐量更是从1.23 MT/s飙升至2.86 MT/s,增幅133%。对于一个运营了8年的成熟引擎而言,这个提升幅度相当可观。

代码驱动设计:Agent不只是会写代码

在代码驱动设计方面,K2.6的Agent模式也展现出全新能力——它可以制作出富有设计感与视觉冲击力的前端页面。凭借对图像和视频生成工具的熟练调用,该Agent能生成视觉风格统一的高质量素材,构建视觉焦点突出的首屏区域,并实现各种交互元素与滚动触发动画效果。

月之暗面方面表示,这一能力并不局限于前端页面开发,同样支持基础的后端数据库模块开发,例如在网页中嵌入表单信息收集功能。换言之,这是一个具备全栈开发潜力的智能Agent。

为了验证这一能力,月之暗面还创建了一套专门的前端开发设计评测基准——Kimi Design Bench。该基准测试覆盖了视觉输入、落地页构建、全栈应用开发以及通用Web开发四个维度。与Google AI Studio中的Gemini 3模型相比,基于Kimi K2.6的Agent展现出明显的领先优势。

Agent集群能力:最多调度300个子Agent并行作业

Agent集群能力的升级,是本次更新的另一大亮点。K2.6支持动态拆解复杂任务,并自主生成专项Agent进行并行处理。目前,它最多可调度300个子Agent,并行完成4000个协作步骤。这意味着更大规模的并行化作业成为可能,任务完成度与交付质量相较K2.5有了显著提升。

具体而言,这个Agent集群能够将搜索、深度研究、文档分析和长文创作等能力进行组合。在单次运行中,它可以独立完成从文档到网页、再到PPT和表格的多产品端到端交付。这已不再是单一功能的简单堆叠,而是一个能够自主规划、分工协作、完成复杂项目的团队级能力。

例如,该集群曾针对全球100个半导体标的设计并执行了5套量化策略。更关键的是,它还将麦肯锡风格的PPT逻辑沉淀为可复用的技能,最终交付了详尽的建模表格和全套汇报演示文档,整个过程几乎无需人工介入。

另一个案例同样令人印象深刻:Agent集群将一篇包含大量视觉数据的天体物理论文,转化为了可复用的学术技能。它提取了论文的推理流程和可视化方法,产出了40页、7000字的研究论文,外加包含2万多条数据的结构化数据集,以及14张天文级别的图表。

从K2.5到K2.6,Agent的自主化执行能力明显增强,尤其是在与OpenClaw、Hermes Agent这类主动式Agent框架协同工作时,表现更为突出。这类场景要求AI能够跨应用实现24/7不间断运行,对上下文维持能力和错误恢复能力都是极大的考验。

月之暗面的RL基础设施团队进行了一项有趣的测试:使用基于K2.6的Agent实现连续5天自主运行,负责监控、故障响应和系统运维。结果显示,它展现出了持久的上下文维持能力、多线程任务处理能力,以及从接收告警到彻底解决的全流程执行能力。

根据Kimi内部Claw Bench的测试结果,K2.6相比K2.5综合性能提升了10%。这一提升覆盖了编程任务、即时通讯生态集成、信息检索与分析、定时任务管理及记忆调用五大维度。特别是在需要长时间自主运行、无需人工干预的工作流中,优势尤为突出。

技能系统:上百个预置技能即取即用

借助K2.6更强的代码和视觉理解能力,Kimi Agent模式现在支持创建和调用“技能”。系统已内置了上百个最新推荐技能,包括投研技能包——可一键生成专业排版的A股、港股、美股公司一页纸,或深度投资研报。

用户操作起来也十分便捷:在Kimi Agent模式下输入斜杠“/”,即可开始创建和调用技能。此外,Kimi Agent还支持“Office文档转技能”功能——上传高质量的Office文档后,模型会尝试理解原文档的结构与风格基因,生成专属的可复用文档创建技能。这意味着,一个好用的模板或报告结构,可以被快速固化为一个可供重复调用的技能。

Claw群组:多个Agent与人类实现真正协同

月之暗面同时宣布开启“Claw群组”的小范围内测。该群组的目标颇具雄心:让多个Agent与人类共同作为协作者协同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候Agent(首批支持OpenClaw,后续将加入对Hermes Agent等框架的支持)。每个Agent可携带各自的专业工具包、技能和持久化记忆上下文。

在这个群组中,K2.6扮演着协调者的角色:它会根据各个Agent的技能画像和可用工具,动态匹配任务。一旦某个Agent遇到故障或停滞,协调者会检测到中断,并自动重新分配任务或生成子任务。这一机制听起来简单,但实际意义重大——它意味着一个Agent团队的运作,不再完全依赖人工干预和调度。

Kimi Claw用户将陆续收到内测邀请,可以期待这一功能正式上线后的表现。

最后,关于开放情况:Kimi K2.6现已面向所有免费用户、付费订阅用户、Kimi Code和企业API用户开放。企业和开发者在Kimi API中指定模型为kimi-k2.6即可开始使用。

为庆祝K2.6模型API上线,Kimi开放平台同步开启了最高30%的限时充值赠送活动。同时,Kimi K2.6最新API已经首发登陆腾讯云TokenHub等平台。月之暗面推荐直接调用最新API以复现基准评测成绩;如需使用第三方API服务,也可以通过Kimi模型供应商验证服务,挑选精度更高的服务商。

来源:https://www.donews.com/news/detail/1/6520391.html
上一篇马斯克转发国内FSD视频播放量超3600万朱晓彤想体验 下一篇2026年智能垃圾处理器推荐排行榜TOP5
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
长安汽车明年一季度发布首款车载人形机器人小安
业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略,采用“1+N+X”布局,联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm,体重69kg,移动速度0 8m s,具备40个自由度,续航超2小时。预计明年一季度发布首款车载组件机器人,已在广州车展展示。

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影
业界动态 · 2026-06-29

中国信科刷新光通信世界纪录 每秒可下载1.4万部4K电影

3月25日,光通信领域迎来又一个里程碑:中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司,成功实现了2 5Pb s 24芯光纤超大容量实时光传输,再次刷新了世界纪录。 这一研究成果不仅入选国际顶级光通信会议OFC(2026)并荣获“高分论文”称号,还受国际权威SCI

美国调查18万辆特斯拉Model3车门应急释放装置易找性
业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查,焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿,不意味着立即召回,但可能引发后续监管措施。

doc个人图书馆停服 创始人称无偿转让失败
业界动态 · 2026-06-29

doc个人图书馆停服 创始人称无偿转让失败

运营长达20年,累计服务8000万用户的360doc个人图书馆,最终还是迎来了谢幕时刻。2026年5月1日,这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失,而是始终未能寻得一位能够安全接管的合适人选。 创始人蔡智在告别信中坦言,近两个月来,他一直在尝试将360doc无偿转

年Q1随身WiFi实测安全靠谱高性价比机型推荐
业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月,艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证,紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后,折射出一个清晰的市场趋势:移动办公、户外出行、宿舍上网等场景的需求正在快速增长,随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿