11月7日最新消息,月之暗面公司正式发布新一代开源思考模型Kimi K2Thinking,该模型展现了迄今为止Kimi系列最强大的智能推理与问题解决能力。
目前,该模型已正式上线kimi.com官方网站及最新版Kimi手机应用的标准对话模式,用户可随时体验其卓越性能。

据了解,Kimi K2Thinking具备"边思考边使用工具"的独特能力。在"人类终极测试"、自主网络浏览能力评估、复杂信息收集推理等多项基准测试中,该模型的综合表现均达到业界顶尖水准,部分指标甚至超越GPT-5。

该模型在智能体搜索、智能体编程、内容创作与综合推理等方面同样表现亮眼,实现全方位能力跃升。
值得注意的是,该模型无需人工干预即可自主实现高达300轮的工具调用,并保持持续稳定的深度思考能力,从而为用户解决日益复杂的实际问题提供强大支持。
"人类终极测试"是一项涵盖100多个专业领域的综合性学术评估,堪称封闭式学术能力的终极考验。
在允许使用搜索工具、Python编程环境和网络浏览器的同等条件下,Kimi K2 Thinking在这项基准测评中取得了44.9%的最佳成绩。

根据最新演示案例展示,Kimi K2 Thinking历经5轮精细搜索与缜密推理,结合每轮获取的新信息层层深入,最终精准推导出正确答案:

此外,在复杂搜索与网页浏览场景下,Kimi K2 Thinking模型同样展现出色表现。
BrowseComp是由OpenAI推出的专门评估AI Agent网络浏览能力的基准测试,其设计初衷是衡量AI智能体在信息过载环境中展现的毅力与创造力,即能否像人类研究员一样"刨根问底"。
在这项极具挑战性的任务中,人类参与者平均仅能达到29.2%的成功率。
Kimi K2 Thinking在这项基准测试中展现出极强的钻研能力,以60.2%的优异成绩成为新的业界标杆。

依托强大的长程规划与自主搜索能力,Kimi K2 Thinking可借助多达上百轮的"思考→搜索→浏览网页→思考→编程"动态循环,持续提出并完善假设、验证证据、进行推理,最终构建出逻辑一致的完整解决方案。
这种边主动搜索边持续思考的能力,使Kimi K2 Thinking能够将模糊且开放式的复杂问题,逐层分解为清晰可执行的子任务集合。
在最新展示案例中,Kimi K2 Thinking经过两轮精心搜索与深度思考:先根据股票回购的已知信息定位到这家制造快递的公司,随后在美国证券交易委员会官方平台找到股票回购公告信息,最终得出准确答案:

