游乐游手机版
首页/科技数码/文章详情

Kimi最强开源模型K2发布:推理能力超越GPT-5

时间:2025-11-29 18:01
11月7日消息,日前,月之暗面宣布发布Kimi K2Thinking,这是Kimi 迄今能力最强的开源思考模型。目前,该模型已上线kimi com和最新版Kimi手机应用的常规对话模式。据了解,Ki

11月7日最新消息,月之暗面公司正式发布新一代开源思考模型Kimi K2Thinking,该模型展现了迄今为止Kimi系列最强大的智能推理与问题解决能力。

目前,该模型已正式上线kimi.com官方网站及最新版Kimi手机应用的标准对话模式,用户可随时体验其卓越性能。

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

据了解,Kimi K2Thinking具备"边思考边使用工具"的独特能力。在"人类终极测试"、自主网络浏览能力评估、复杂信息收集推理等多项基准测试中,该模型的综合表现均达到业界顶尖水准,部分指标甚至超越GPT-5。

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

该模型在智能体搜索、智能体编程、内容创作与综合推理等方面同样表现亮眼,实现全方位能力跃升。

值得注意的是,该模型无需人工干预即可自主实现高达300轮的工具调用,并保持持续稳定的深度思考能力,从而为用户解决日益复杂的实际问题提供强大支持。

"人类终极测试"是一项涵盖100多个专业领域的综合性学术评估,堪称封闭式学术能力的终极考验。

在允许使用搜索工具、Python编程环境和网络浏览器的同等条件下,Kimi K2 Thinking在这项基准测评中取得了44.9%的最佳成绩。

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

根据最新演示案例展示,Kimi K2 Thinking历经5轮精细搜索与缜密推理,结合每轮获取的新信息层层深入,最终精准推导出正确答案:

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

此外,在复杂搜索与网页浏览场景下,Kimi K2 Thinking模型同样展现出色表现。

BrowseComp是由OpenAI推出的专门评估AI Agent网络浏览能力的基准测试,其设计初衷是衡量AI智能体在信息过载环境中展现的毅力与创造力,即能否像人类研究员一样"刨根问底"。

在这项极具挑战性的任务中,人类参与者平均仅能达到29.2%的成功率。

Kimi K2 Thinking在这项基准测试中展现出极强的钻研能力,以60.2%的优异成绩成为新的业界标杆。

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

依托强大的长程规划与自主搜索能力,Kimi K2 Thinking可借助多达上百轮的"思考→搜索→浏览网页→思考→编程"动态循环,持续提出并完善假设、验证证据、进行推理,最终构建出逻辑一致的完整解决方案。

这种边主动搜索边持续思考的能力,使Kimi K2 Thinking能够将模糊且开放式的复杂问题,逐层分解为清晰可执行的子任务集合。

在最新展示案例中,Kimi K2 Thinking经过两轮精心搜索与深度思考:先根据股票回购的已知信息定位到这家制造快递的公司,随后在美国证券交易委员会官方平台找到股票回购公告信息,最终得出准确答案:

Kimi最强开源思考模型 Kimi K2 Thinking发布:推理等超越GPT-5

来源:https://news.mydrivers.com/1/1084/1084993.htm
上一篇上海一杯"水"卖28元店家回应:实为口感清冽鸡尾酒 下一篇华为Mate 80 RS前瞻:史上最强Mate旗舰配置曝光
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5