进入2025年以来,国内大模型赛道上的头部玩家们正全力争夺时间窗口——从模型迭代、产品打磨到融资上市,每个环节都不敢有丝毫松懈。与此同时,“商业化”这一命题也悄然成为他们日程表上的重中之重。
近期,结合Kimi对外披露的最新信息,以及与月之暗面Kimi B端负责人黄震昕的深入交流,这家公司在商业化路径上的战略选择与自我定位正逐步浮出水面。
过去两年间,Kimi完成了多项关键突破:首次大规模将二阶优化器Muon引入训练,取代了沿用十年之久的行业标准Adam优化器;推出了基于KDA注意力机制的Kimi Linear架构;并带来了注意力残差方案。这些技术动作直接带来了计算效率的大幅跃升。
关于Harness(外部复杂任务编排框架),Kimi的立场非常清晰:随着基础模型能力的持续增强,对外部复杂Harness的依赖自然会降低,这类似于去年Prompt工程热度的退潮趋势。因此,Kimi内部已开始实践Loop Engineering(循环工程),让模型在自我循环中独立完成任务。
黄震昕指出,当前Token市场价格呈上升趋势,但用户仍愿意为高性能Token付费。与此同时,芯片紧缺与算力成本上涨虽然推高了成本,但模型厂商也在通过技术优化,将Token的实际使用成本不断压低。
在定价策略上,Kimi的定位十分明确——坚持做高性能模型,而非追求最低价格。尤其是今年模型价格整体上涨,本质上源于全球算力供给难以跟上Token需求的快速增长。Kimi应对成本压力的手段,一是依靠技术优化,二是其引以为傲的KV-Cache命中率——据称已突破90%。
“评估模型定价不能只看输入输出价格,还必须关注KV-Cache命中率。只要命中率提升,成本就能大幅降低,从而帮助用户省下不少费用。”黄震昕解释道。
作为Kimi B端业务的负责人,黄震昕还详细披露了公司在To B领域的布局,核心围绕三层服务体系:模型层提供K2.7 Code、K2.6等基础模型;架构层提供API及Agent SDK;产品层则推出企业版,涵盖Kimi Agent集群、Kimi Code、Kimi Work等工具。值得注意的是,黄震昕明确表示,Kimi不会做过于繁重的交付工作,“模型本身还有大量技术难题亟待攻克,Kimi能把模型做好已经很不容易了。”
针对企业级应用所需的“最后一公里”服务,Kimi选择了一条更轻量的路径——通过FDE(前端交付)合作伙伴完成端到端交付,而非自建庞大的服务团队。在行业解决方案层面,Kimi正尝试与亚马逊云科技等伙伴合作,共同打造金融、医疗、制造等垂直场景的方案。合作中,Kimi提供模型能力,合作伙伴则贡献行业经验与客户资源。
以下摘录了黄震昕在亚马逊云科技中国峰会上的演讲核心观点。
他谈到,加入月之暗面时被一个愿景深深吸引:致力于寻找将能源转化为智能的最优解。为何选择这一命题?人类历史上经历了三次真正的能源变迁:第一次是学会利用阳光,第二次是发掘煤炭,第三次,也就是现在,学习如何将能源高效地转化为智能。前两次转化是线性的、有限的,而这一次——是可逆的、可扩展的、可存储的。
关于实现这一最优解,目标始终是做出全球领先的模型。因此,对月之暗面而言,扩大模型规模(Scaling)是必选项。近期完成的融资规模不小,但与海外同行相比并不算充裕。所以,必须找到效率的最优解。
为此,Kimi选择了三个技术方向,因为它们分别对应智能体的三大核心能力维度:聪明程度、任务时长(Long Context)和协作能力(Agent Swarm)。
第一,聪明程度。数据并非无限,在相同算力下,谁能学得更高效,谁就更有竞争优势。
第二,任务时长。这决定了模型如何处理更长时间的任务,同时不遗忘最初目标。
第三,协作能力。单个智能体再强大也有局限性。如何让多个智能体高效组队,协同完成复杂的用户任务,是另一个关键。
这三个维度合在一起,构成了AI产品能力的整体体现。自2025年以来,Kimi在这三个方向上都取得了关键突破。每一项创新都瞄准了最基础的模型架构,而不仅仅是工程效率的优化。
举个例子,经典Adam优化器诞生于11年前,Kimi将一种新的优化技术应用到大部分训练中,实际数据使用效率提升了27%,整体效率直接翻倍。在长文本方面,传统Attention架构诞生于八年前,Kimi推出的Linear Attention技术将在下一代模型中应用。传统架构下,模型扩大十倍,训练和推理成本将扩大一百倍;而新技术仅需十倍的算力即可实现。此外,残差连接技术诞生于十年前,Kimi的注意力残差技术使得效率提升了25%。
马斯克也曾专门为这些技术点赞。可以说,模型的规模瓶颈正在被逐步攻克,更大规模、更高质量的模型成为可能。行业常识是,KV缓存命中率在很大程度上影响用户的最终使用成本。通过研发和工程优化,Kimi持续提升效率、降低KV缓存失效率,从而降低了API的使用成本,让更多用户用得起。
最近发布的Kimi K2.7,代码能力大幅增强,还特别推出了高速版本,输出速度达到180 token/秒。很多朋友反馈,用上之后就再也回不去了。这也是通过推理优化提升客户体验的一个例证。
Kimi是一家注重审美的公司,品牌调性非常明确——专注生产力领域。有限的能源和算力集中在学术研究、软件工程、复杂推理等场景。长期使用的用户会发现,核心场景始终围绕提升生产力。
大家可能对Kimi的印象更多停留在To C端,但其实在To B领域,Kimi并非简单售卖API,而是提供了一整套完整的生产力赋能体系,具备三层能力:
模型层:Kimi持续打造最强的基础模型。底座已涵盖K2.7 Code、K2.6和K2.5等模型,为企业级应用提供坚实的智能底座。
服务层:Kimi提供丰富的API,开发者可以进行深度集成,将Kimi的能力无缝嵌入企业自身的工作流,例如网页搜索、PPT生成等。
工具/产品层:Kimi提供包括Kimi Agent集群、Kimi Code、Kimi Claw、Kimi Work等开箱即用的产品,直接解决企业真实场景中的复杂问题,比如让Agent自动处理报表、生成行业分析、管理项目文档。
在全球化业务拓展方面,Kimi正携手亚马逊云科技推进全球业务协同,借助其从基础设施到应用落地的全方位支持,加速全球化规模,为全球企业赋能生产力:
基础设施和服务层面:Kimi运行在亚马逊云科技遍布全球的数据中心和网络基础设施上,获得稳定可靠的算力支撑。多个模型现已登陆Amazon SageMaker,让更多开发者可以进行训练与推理,大幅降低使用门槛。同时,Amazon Bedrock已接入Kimi K2.5等开源模型,未来Kimi正积极推进接入更多最新模型,用户无需自行管理基础设施即可使用。此外,Amazon Bedrock Guardrails的企业级安全能力也将自动适用于Kimi,提供有害内容过滤、提示词攻击防护以及企业合规保障。
业务合作层面:Kimi已登陆亚马逊云科技Marketplace,直接触达全球数百万活跃企业客户。全球客户可以通过这个数字软件市场简化采购流程,实现一键使用、按量付费与零门槛接入。借助APN合作伙伴网络,Kimi正在快速拓展企业客户。
垂直行业层面:Kimi与亚马逊云科技联合打造行业解决方案,覆盖金融、医疗、制造等垂直行业场景。合作中,Kimi提供核心大模型,亚马逊云科技发挥其丰富的行业经验与客户资源,共同将Kimi的能力无缝嵌入企业的真实业务流程。
