首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
杨植麟详解Kimi K2.5:平台可分身百个Agents

杨植麟详解Kimi K2.5:平台可分身百个Agents

热心网友
64
转载
2026-01-27


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

没坐在实木茶几前,没坐在沙发里,背景也没有高雅的绿植映衬,月之暗面的CEO杨植麟在视频里站着就发布了Kimi最新的模型K2.5。

而且还是中英文双语的。

“Hi 大家好,我是植麟。”杨植麟说。“K2.5是我们目前最强大的模型,它是一个全能模型,不管是视觉还是文本,对话还是agent,思考还是非思考——所有这些能力,都集中在这一个模型里。重要的是,K2.5是一个开源模型。”

显然,一个疯狂的模型集体更新季到来了。

而即便如此,在诸多新发布的模型之间,月之暗面刚刚最新发布的Kimi K2.5依然区分度明显。

根据Kimi的数据,K2.5在包括HLE、BrowseComp 和 DeepSearchQA等极具挑战性的 agent 评测中取得了当前最佳表现。在编程能力测试上,它在 SWE-bench Verified 上拿到了 76.8 分,缩小了与顶尖闭源模型之间的差距。多项视觉理解评测上也实现了当前最佳效果。


在这些能力指标之外,更重要的是,K2.5是至今为止最能充分展现月之暗面特质的一代模型:

这家公司一直被寄予厚望的是它的算法研究和产品创新能力,而这代更全面的模型充分展示了这家公司在研究和产品设计上很强的少年气。

1

先看看K2.5的几个核心特点:

在模型具体单点的能力上,它终于有了视觉能力,可以基于视觉,包括图片和视频,进行理解和推理。同时它是一个all in one架构的模型,多模态和文本、思考和快速回答、代码和agent能力都统一于一个模型一身。

在月之暗面一直坚信的“模型即产品”思路之下,K2.5这次做了多个很有新意的功能封装。

它把视觉和编码能力结合,把模型追求的few shots甚至zero shot能力直接体现在Kimi的产品上,你可以用更简单的自然语言和更直观的视觉编辑的方式,比如直接给他一个你要的产品的视频,让它拆解后还原复刻,比如直接在生成的UI上圈圈改改,就能完成创作和开发以及修改。

最新给出的一个用视觉能力复刻项目的例子

除了前端设计,伴随K2.5,Kimi还推出了Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor 等主流编辑器中。你可以直接输入图片和视频进行编程辅助,而且它还可以自动发现并将你现有的Skills迁移到新的工作流中。

更亮眼的则是此次发布的但依然在beta阶段的多agent能力。Kimi直接通过产品把模型训练出来的“多agent平行与串行调度能力”封装提供了出来:

当你选择Agent集群模式,模型开始给你打造一个专业团队,100个agent集群可以同时并发,串行+并行来完成复杂任务。根据Kimi介绍,这些专项 agents 本质上都是 K2.5 的“分身”但各自承担不同的角色和子任务。

“没有任何预设的规则,所有的角色分配和任务拆解,都由 K2.5 现场即时决定。”依然是模型通用能力最终大过垂直打造工作流的产品思路。

目前Agent 集群功能正在进行 Beta 测试,部分 Kimi 会员可提前试用,接下来会逐渐推广。

而在这一切的底座上,在模型训练方法以及AI技术演进的方向上杨植麟继续完善着他scale to AGI的路线。

在训练上,Agent集群对模型提出新的要求,Kimi为此重构了强化学习的基建,专门优化了训练算法,以确保它能达到极致的效率和性能。

而从K1.5开始,每一代的模型其实都在Scale一个不同的方向,K1.5 是在 token上继续Scale,到了agent能力增强的K2,重点scale 思考的步骤,而K2.5 则是对agent的规模,也就是多agent的共同协作能力做Scale,进而保持scale的可延续。

“Scaling Out, Not Just Up.”

2

这次K2.5让Kimi变成一个全面的模型,更难得的,是这些背后都有它自己思路清晰的创新思考。

都说scaling law不持续,我就要给你延续下去,而且是一个又一个“新花样”的延续。

而且这些Scale的方向后来也都成为了模型研究界在那一阶段的主流。此次的多agent其实再次把agent swarm摆到了大家面前,这个“agent蜂巢”的概念提了很久,这次Kimi用一个模型来把它展示出来,接下来如何提高高并发、大批量、多样性以及智能“分身”的能力,会成为又一个各大厂商比拼的重点。

在此次的技术报告里,Kimi也着重分享了Agent swarm背后的创新。

K2.5使用了一种并行智能体强化学习(PARL)的方法进行训练,让模型学会自我指导一个多达100个子智能体的蜂群,在最多1500个协调步骤内执行并行工作流。而这个过程里无需预定义角色或手工设计的工作流。

PARL其实包括三个部分,一个可训练的编排智能体,负责拆解任务,“分身”出可并行化的子任务,这些子任务由动态实例化的冻结子智能体执行。

这个训练过程困难重重,比如当你让它们并行后再串联起来时,很可能会发现编排器默认退化为了单智能体执行,于是一切都崩了。Kimi为解决此问题,给PARL采用了分阶段奖励塑形,在训练早期鼓励并行,并逐步将重心转向任务成功。


这一套创新带来很好的效果。在Kimi的内部评估中,Agent Swarm使端到端运行时间缩短80%,并支持更复杂的长周期任务负载。


在广泛搜索场景下,相比单智能体执行,它将达成目标性能所需的最小关键步骤减少3至4.5倍,且节省效果随目标提升而扩展——通过并行化实现高达4.5倍的实际耗时缩减。

同时,在多模态上,它不只是给一个文本模型补上这个能力就完事了,它同样展现了自己对这个能力究竟能给人们带来什么价值的思考。

眼看人们的创造都已离不开AI却又逐渐沦陷在AI味儿的模版化里无暇逃离,它就花大力气去训模型的“美学品味”。

眼看提示词工程正变得越来越悬乎,本该简洁的AI交互里,它(很多时候瞎热闹)的复杂性正被反过来用作一种新的FOMO来源,于是Kimi强化了K2.5的意图理解能力,并且在交互上做文章——

都知道多模态是必备能力,但Kimi觉得它不该是“目的”本身,而应该是一把利刃,加持到Coding的能力上去,这样能让更多人平等的享受AI带来的编程“普惠”红利,不用陷入提示词陷阱里去。

有用户使用K2.5生成的网页 Prompt: Code me a landing page for a gym super good UI/UX single file html css javascript no limit.

Kimi从成立到今天,有一个地方一直没变,就是它是一个最有自己想法的,甚至有时候让人感到充满一股中二气质和热血感的模型公司。

一个很有意思的地方是,当这个多agent调用时,它会给不同agent起名字,在一个案例里,这些agent的名字中二气十足:


比起在榜单上对闭源模型的逼近,其实今天我们更需要的没有被困在某个阶段或是困在原地的模型和公司们,它们能让人看到继续打破一些桎梏往前走的希望,让人看到一些少年气,这真的很重要。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KKA1S14P0511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

善恶有报!钟汉良《蜜语纪》38集大结局,是今年看过最解气结局
娱乐
善恶有报!钟汉良《蜜语纪》38集大结局,是今年看过最解气结局

2026年开春收视黑马《蜜语纪》,于4月底迎来大结局。 当所有看惯国产剧套路的观众,都以为结局无非是霸道总裁携“娇妻”登顶职场巅峰时,《蜜语纪》却给出了截然不同的答案——它不仅让观众看爽了,更抛出了全剧最清醒、最硬核的内核。 反派悉数恶有恶报!剧中那位让人恨得牙痒痒的鲁贞贞,可谓将算计做到了极致。怀

热心网友
05.01
张雪成为符号,故事开始俗套
娱乐
张雪成为符号,故事开始俗套

张雪:逆袭故事背后的真实温度 十四岁,初中毕业,从摩托车修理铺的学徒工起步;二十五年后,带领团队战胜国际强队,站上世界超级摩托车锦标赛的最高领奖台——这是张雪的故事。听起来,是不是像极了那些年在《读者》《意林》里反复出现的励志叙事?热血,逆袭,以凡人之躯比肩传奇。 但看得多了,难免会生出一种熟悉的疏

热心网友
04.29
捕获野生夜魔侠!漫展「反向搭讪粉丝」求合照 真相曝光网笑疯
娱乐
捕获野生夜魔侠!漫展「反向搭讪粉丝」求合照 真相曝光网笑疯

《夜魔侠:重生》第二季强势回归,空降全球收视冠军 漫威的硬核之作《夜魔侠:重生》第二季,自3月25日开播以来,势头可谓锐不可当。刚一上线,便直接空降Disney+全球收视榜榜首,其专属话题标签 DaredevilBornAgain更是在首播当晚,迅速冲上社群平台“X”的全球趋势第一,热度可见一斑。

热心网友
04.28
《High Potential》女主放话
娱乐
《High Potential》女主放话

看来,要让观众对一对CP的“催婚”持续上头,Kaitlin Olson心里自有一套精密的算法。作为ABC热门剧《High Potential》的女主角兼执行制片人,她在第二季大结局播出后的一席谈,几乎给Morgan和Karadec的感情发展按下了暂停键。理由很直接:如果现在就让他们在一起,往后的戏还

热心网友
04.28
《叵测》大结局:背后boss,薛琴以一人之力,搭上7条“人命”!
娱乐
《叵测》大结局:背后boss,薛琴以一人之力,搭上7条“人命”!

悬疑剧《叵测》大结局深度解析:真相揭晓,复杂人性引人深思 热播悬疑剧《叵测》迎来震撼收官,当最终真相浮出水面,无数观众陷入沉默与反思。孟广才的“出轨”表象、弟弟薛永辉的牺牲、焦利军的谋划、汪大柱的义气,这一切竟都是为了掩护核心人物——薛琴。这段纠缠于三男一女之间的复杂关系,交织着扭曲的友谊与爱情,究

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14