首页 游戏 软件 资讯 排行榜 专题
首页
AI
杨植麟发布Kimi K2.5开源新王:智能体效能最高提升450%

杨植麟发布Kimi K2.5开源新王:智能体效能最高提升450%

热心网友
46
转载
2026-01-27


智东西
作者 王涵
编辑 云鹏

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西1月27日报道,今天,月之暗面Kimi开源了新模型——K2.5,杨植麟还特别发视频亲自介绍。

杨植麟分享称,K2.5是Kimi迄今为止最强大的模型。面对复杂任务时,Kimi K2.5可自主调度包含多达100个子智能体的集群,并行执行最高1500次工具调用。

相较于单智能体模式,其任务执行效率提升最高达4.5倍。整个Agent集群由K2.5模型全自动创建与协调,无需任何预定义子智能体或工作流。该模型以Kimi K2为基础技术架构,在原有架构之上进行了持续的预训练优化,且训练过程中学习、融合了约15万亿个“视觉+文本”混合形式的训练数据单元。

▲K2.5模型开源页面(来源:Hugging Face)

基准测试上,在Agents方面,HLE-Full(综合推理)、BrowseComp(浏览交互)、DeepSearchQA(深度搜索问答)三个基准测试中K2.5得分均位列第一;在编码方面,K2.5在SWE-Bench Verified、SWE-Bench Multilingual两项中均排名第一;在图像多模态方面,K2.5在文档理解测试mniDocBench 1.5中得分88.8,为第一名。


▲K2.5模型基准测试

在Agent基准测试HLE、BrowseComp和SWE-Veried中,K2.5与GPT-5.2(xhigh)相比,在性能逼近的同时成本更低。


▲K2.5模型性价比对比

外网网友对Kimi K2.5模型的评价可以说是好评如潮。FireworksAI联合创始人兼首席技术官Dmytro Dzhulgakov评论称“Kimi K2.5=开源SOTA推理+视觉+256K 上下文+智能体编码”。


▲外网网友评价(来源:X)

Thrive Protocol AI与数据工程师、Ethers Club播客主持人0xSero说(他用)Kimi创建了新的 页面。


▲外网网友评价(来源:X)

KEA Research协作平台创立者Stanislaw则评价Kimi看起来十分有潜力。


▲外网网友评价(来源:X)

除了K2.5模型外,针对软件工程场景,Kimi团队还推出了编程产品Kimi Code。Kimi Code可直接在终端运行,并支持与VSCode、Cursor、Zed等主流IDE集成。该产品已开源,支持图像与视频输入,还能自动发现现有技能及MCP协议并迁移至Kimi Code工作环境。

价格上,K2.5模型API输入(每百万Token)4元,缓存输入0.7元;输出(每百万Token)21元。


▲K2.5模型API价格

K2.5模型提供了四种模式:

1、快速模式:提供最快的响应体验;

2、思考模式:可以用来解答复杂问题;

3、Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;

4、Agent集群模式:适合需要并行处理的复杂任务。


▲K2.5模型主页

开源地址:

Hugging Face:

https://huggingface.co/moonshotai/Kimi-K2.5

魔搭社区:

https://modelscope.cn/models/moonshotai/Kimi-K2.5

一、几句话生成能交互的动态网页界面,K2.5降低视觉表达门槛

在Kimi团队内部编程基准测试集Kimi Code Bench中,K2.5在多语言环境下从构建、调试、重构、测试到脚本编写的端到端任务上均较K2有所增强。


▲内部编程基准测试集Kimi Code Bench

杨植麟称,Kimi团队不只是想让K2.5学会写代码,更希望它具备设计审美。在前端开发领域,K2.5能将简单对话转化为完整的前端界面,可以做出像专业设计师出品一样,有高级审美和动效的网页,就像这样:

在视觉编程方面,通过对图像与视频的推理,K2.5的图像/视频转代码生成与视觉调试能力增强,降低了用户通过视觉表达创意的门槛,直接上传一个录屏,就可以重建网页。

此能力源于K2.5的大规模视觉-文本联合预训练。当数据规模足够庞大时,视觉与文本能力实现同步提升。

K2.5还可以通过代码推理谜题并标记最短路径:


二、自主调动1500个协调步骤,K2.5端到端运行时间缩短80%

半年前,Kimi发布了首个万亿参数开源Agent模型Kimi K2。随后推出的Kimi K2 Thinking,通过增加思考时间,具备了独立完成长达300步操作的长程任务能力,但这还不够。

通过并行智能体强化学习(PARL)训练,K2.5模型学会了自主调度最多100个子智能体组成的集群,并行执行最多1500个协调步骤的工作流,整个过程无需预定义角色或人工设计工作流。

可以说,K2.5是从“单个专家”升级为了一个“专业团队”。


▲K2.5 Agent集群结构

K2.5 Agent集群通过并行、专门化的执行方式能够提升复杂任务的性能。在Kimi团队内部评估中,其能够将端到端运行时间缩短80%,同时支持更复杂、更长期的工作负载。


▲Kimi团队内部评估

在广泛搜索场景中,与单智能体执行相比,Agent集群可以将达到目标性能所需的最小关键步骤减少至原先的1/4到1/5.5。通过并行化,Agent集群实际运行时间最多可减少至原先的1/5.5。


▲运行时间对比

在实际任务中,例如在大规模并行处理方面,面对在100个细分领域中找出排名前三的YouTube创作者的任务,K2.5 Agent集群首先研究并定义每个领域,然后自主创建100个子智能体进行并行搜索。

每个子智能体在其分配的细分领域内识别出领先的创作者,并将结果汇总到一个结构化的电子表格中。

在大规模使用工具方面,K2.5 Agent集群仅凭一张结婚照,就能启动20个并行子智能体,生成符合当地文化背景的全球婚礼旅行场景,并将它们整合到一个具有统一身份和服饰的互动网页中。

此外,在规模化产出方面,K2.5 Agent集群可以将一项涵盖40篇社会心理学论文的文献综述任务分解为多个专注于写作的子智能体。

每个子智能体负责综述的特定部分,它们的输出最终被综合成一份100页的双栏学术文档,其中包含格式完整的引文和参考文献。

最后,在大规模下载方面,K2.5 Agent集群能够调度多个具有专业分工的子智能体,共同协作处理保罗·格雷厄姆(Paul Graham)的文章。这些子智能体分别负责搜索、下载、分类、总结与汇编任务。

在协同工作下,系统将超过200篇原始文章按主题整理至6个分类文件夹,并生成了一份结构清晰的综合摘要报告。报告中所有引用均明确标注了对应的原始文章来源。


三、AI办公质量提升近60%,K2.5能处理大规模办公任务

不仅如此,K2.5已经开始熟练掌握Office套件的核心技能。

其能够端到端处理高密度、大规模的办公任务,该模型能解析大规模高密度输入,协调多步骤工具使用,并通过直接对话生成专业级输出成果,包括Word、Excel、PPT和PDF。

KImi团队针对真实职场场景,设计了两套内部专家生产力基准测试。AI办公基准测试评估端到端的办公输出质量,而通用智能体基准测试则以人类专家表现为标准,衡量多步骤生产级工作流的表现。

在这两项测试中,在两项基准测试中,K2.5的性能分别比K2 Thinking提升了59.3%和24.3%。


▲kimi内部专家生产力基准测试

K2.5智能体支持高级办公任务,例如在Word中添加批注、使用数据透视表构建财务模型、在PDF中编写LaTeX公式,并能处理长达万字的论文或百页文档等长篇输出。

例如生成包含图片的100个镜头的分镜脚本表格:

给技术报告增添行内注释:

从数据中提取30个带密码的工资单PDF文件:


结语:月之暗面或将着重多模态及智能体集群能力

一周前,市场还在为月之暗面在20天内估值暴涨约34亿人民币的消息而惊叹。一周后,这家北京AI独角兽就开源了新模型。

此次开源的K2.5模型,最亮眼的就是其“智能体集群”能力,将AI从执行单一指令的工具,升级为能自主调度、并行处理上千步骤的“团队”,而这正直指企业级应用的核心痛点:复杂、高成本、长周期的知识工作流程自动化。

整体来看,这是一次聚焦于提升模型实际效能、扩展多模态能力的技术迭代。此次发布展示了月之暗面近期的研发重心与成果,此前曝光的新融资或为这类深度研发提供更多支持。

来源:https://www.163.com/dy/article/KKA6PKEE051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

逐玉粉底液被军媒点名,剧方解释难平粉丝质疑
娱乐
逐玉粉底液被军媒点名,剧方解释难平粉丝质疑

“商女不知亡国恨,隔江犹唱后庭花。”——摘自杜牧的诗《泊秦淮》。“十年项羽无人问,一部逐玉天下知。”——这是网友对何润东的点评。最近内地影市没啥好谈的,本周新片包括热度较高,袁梅导演,袁泉耿乐主演的

热心网友
03.30
巴塔哥尼亚偷工减料?始祖鸟旧款硬壳被曝后门差异
科技数码
巴塔哥尼亚偷工减料?始祖鸟旧款硬壳被曝后门差异

作者 | 源Sight 安然相比 "一鸟二树三条路 "上身后直接晋升体制内人士 预备役,穿上巴塔哥尼亚(Patagonia)的中产们反而有加入 "丐帮 "的嫌疑,但许多人仍然乐此不疲。近日,不少关于巴塔哥尼

热心网友
03.29
逐玉:长玉为何因谢征武安侯身份动怒掌掴?
娱乐
逐玉:长玉为何因谢征武安侯身份动怒掌掴?

长玉终于在巫河山找到了宁娘和言正,看到言正躺在伤兵营她心里一阵心疼。两人解开心结,长玉一次次的说“不和离了”。谢征却怕长玉知道他是武安侯后不喜欢他了,便一直隐瞒身份。于是伤早就好了的他一直躺在床上,

热心网友
03.17
首批养虾人尝忧患亦存机遇:有人失眠,有人月邀5主播合作
科技数码
首批养虾人尝忧患亦存机遇:有人失眠,有人月邀5主播合作

“我觉得OpenClaw对于推广和宣传智能体的概念非常好,但它现在还有3个问题没有解决。”3月9日,在谈及最近火遍全网的“龙虾”时,全国政协委员、360集团创始人周鸿祎也表现出对这只“龙虾”数据安全

热心网友
03.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08