“我们希望在今后的十年乃至二十年里,能持续将K4、K5做到K100,让它们一代更比一代强。”
1月10日,在由清华大学基础模型北京市重点实验室主办的AGI-Next前沿峰会上,AI大模型独角兽月之暗面(Kimi)的创始人兼CEO杨植麟,畅谈了Kimi未来的发展规划。

澎湃新闻记者 范佳来 摄
随着大模型公司纷纷走向上市的大潮,同属大模型独角兽的Kimi,其资本动向也备受外界瞩目。去年12月31日,杨植麟曾在内部全员信中透露,公司已完成5亿美元C轮融资,账面拥有超过100亿元人民币的现金储备。
此外,信中信息还显示,Kimi全球付费用户数月增速高达170%,在K2+Thinking大模型能力的带动下,其海外大模型API收入实现了四倍增长。
杨植麟指出,自2019年以来,全球大模型的发展都遵循一个核心规律——Scaling Law。其本质就是“投入更多的算力、使用更多的数据、采用更大的模型参数,能让AI变得更聪明、出错更少”。这一规律的落地,离不开主流架构Transformer的有力支撑。
他举例说明,相比早期的LSTM架构,Transformer在处理简短文本任务时效果相近;但在面对长文本、复杂任务时,Transformer能更清晰地梳理和记住逻辑关系。这就像“阅读短文时两者不相上下,但面对长篇报告时,Transformer的优势就十分明显”。这也使它成为适配当前编程、复杂问题求解等场景的关键。
基于这一核心规律,Kimi的技术研发集中在两大方向:让AI“学得更快”和“记得更牢”。为实现这两大目标,团队取得了两项关键技术突破。其一是推出了MUON二阶优化器。相比于行业沿用十年的Adam优化器,新优化器能让AI的学习效率成倍提升。“原本需要研读一百份资料才能掌握的技能,现在五十份就够了,而且理解得更加扎实。”
其二是研发了Kimi Linear架构,它解决了传统技术“记久了就容易出错”的难题。在处理百万字级别的长文本时,其速度比传统架构快6到10倍,且逻辑输出更加稳定可靠。
值得一提的是,团队还攻克了MUON优化器训练中的“Logit爆炸”难题。通过动态QK-clip技术,在确保模型效果不受影响的前提下,成功实现了万亿参数级别的Kimi K2模型的稳定训练。作为中国首个真正意义上的Agent模型,Kimi K2具备调用两三百种工具的能力,能够独立完成复杂编程、难题推导等任务。在核心测试HLE中,其准确率达到45%,超越了OpenAI的同类模型。
杨植麟透露,目前已有多个国产开源模型成为行业测试标准。“我们的技术不仅要好用,更要积极参与到行业规则的制定之中。”面向未来,团队将持续迭代技术。下一代模型将采用Kimi Delta Attention新型线性注意力机制,进一步提升长短文本任务的处理性能与速度。同时,未来的大模型还将具备更多的“审美”和“价值观”判断,以摆脱同质化发展的窠臼。
对于公众关心的AI安全问题,杨植麟分享了与Kimi对话后的感悟:“AI或许是人类探索未知的一把钥匙,它能帮助我们攻克癌症、解决能源危机、探索宇宙。虽然存在风险,但放弃发展就等于放弃了人类文明突破上限的可能性。”
他表示,团队将在做好风险控制的前提下持续突破,计划在未来十年、二十年内,陆续推出K4、K5直至K100系列模型。(记者注:目前最新版本的Kimi大模型是K2)
