DeepSeek V3.1模型Eigen-1首破60分，领跑GPT-5和Grok4

首页/科技数码/文章详情

DeepSeek V3.1模型Eigen-1首破60分，领跑GPT-5和Grok4

时间：2025-09-28 22:11

在HLE（“人类最后考试”）的专家校验子集上，首次有系统突破60分大关！就在最近，由耶鲁大学唐相儒、王昱婕，上海交通大学徐望瀚，UCLA万冠呈，牛津大学尹榛菲，Eigen AI金帝、王瀚锐等团队

人工智能领域迎来重大突破！在被誉为"人类最终考试"的HLE评测基准中，由国际顶尖研究团队联合开发的Eigen-1多智能体系统创造了历史性记录——首次突破60分大关！

历史性时刻：Eigen-1登顶HLE评测

这项由耶鲁大学、上海交通大学、UCLA、牛津大学和Eigen AI联合研发的系统，在HLE Bio/Chem Gold专家校验集上表现出色：

首次答题准确率：48.3%
五次尝试最高准确率：61.74%

这一成绩不仅首次跨越60分里程碑，更大幅领先谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）等知名模型。

更令人振奋的是，这一突破完全基于开源的DeepSeek V3.1架构实现，展示了开源AI的巨大潜力。

三大核心技术突破

系统融合了以下创新技术：

Monitor-based RAG（隐式知识增强）
HSR（分层解法修复）
QAIR（质量感知迭代推理）

全面性能表现

Eigen-1在多个评测集上展现出色能力：

HLE Bio/Chem Gold	61.74%
SuperGPQA生物学	78.26%
TRQA文献理解	79.07%

技术细节分析

研究发现：

92.78%的错误涉及推理过程问题
88.66%的错误与知识应用相关

这表明科学推理的最大挑战在于知识与推理的有机结合。

研究意义与展望

这项突破标志着AI开始真正理解人类前沿科学知识。研究团队表示将继续优化系统架构，拓展到更广泛的科学领域。

论文与开源地址：

论文：arXiv:2509.21193
项目：GitHub

来源：https://36kr.com/p/3486330021846152

上一篇半导体国产替代加速，电子化学品迎发展良机 下一篇《Swords & Slippers》新预告：暗黑童话冒险启程

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

最新消息称国行苹果iPhone 18 Pro Max电池容量达到了5391mAh增幅11.78%

科技数码 · 2026-07-05

HMD发布四款诺基亚功能手机配备AI按键与可拆卸电池

HMDGlobal推出4款诺基亚功能手机，均配1450mAh可拆卸电池及独立AI按键，支持语音控制，免费180天后付费。部分机型带摄像头，支持microSD卡扩展至32GB，具双SIM卡、3 5mm接口及蓝牙5 0。

科技数码 · 2026-07-05

云南以旧换新补贴扩围新增智能影音与无人机

云南省自2026年7月起扩大消费品以旧换新补贴范围，新增智能门锁、智能影音、无人机、数码相机等数码智能产品及吸油烟机、燃气灶、洗碗机、净水器等家电。按最终售价15%补贴，每类每件最高1500元，商户报名无限制。

科技数码 · 2026-07-05

小米Redmi 7英寸高性能手机传闻即将发布

最近圈内又有新动静了。据博主 @数码闲聊站今天爆料，某家厂商的子系列下一代打算推出两款屏幕尺寸差异明显的机型：一块是 6 59 英寸的中屏 Pro，另一块则是 7 英寸的巨屏性能机。从该博主以往的爆料习惯来看，基本可以锁定是小米 REDMI 品牌的产品线布局。有意思的是，早在今年 2 月，这位博

科技数码 · 2026-07-05

深光影像AF35mmF2.2CE全画幅镜头E/L卡口739元起售

深光影像AF35mmF2 2CE全画幅镜头开售，提供E卡口和L卡口，标准版七百三十九元，套装版七百八十九元。全金属机身，重约一百七十五克，高三十六毫米，滤镜口径五十二毫米，光学结构五组七片，九片光圈叶片，最近对焦零点三五米，支持自动对焦。