首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
国产开源模型的代码跑分如何超越GPT-5.1

国产开源模型的代码跑分如何超越GPT-5.1

热心网友
60
转载
2026-01-02

2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面开源,涵盖 7B、14B、40B 三种参数规模,以及标准版和 Loop 变体。


图丨IQuest-Coder-V1的架构(来源:GitHub)

至知研究院由九坤投资创始团队发起设立,定位为独立于量化投研体系的 AI 研究平台。

九坤本身是国内最早将深度学习大规模应用于量化投资的机构之一,2020 年投资过亿建成 AI 超算集群“北溟”,旗下三大实验室长期从事数据、算法和交易执行研究。继幻方量化孵化出 DeepSeek 之后,这是又一家从量化圈走出来的 AI 研究力量。

IQuest-Coder-V1 技术报告中最值得关注的是 Code-Flow 训练范式对 commit 演化数据的利用。传统代码模型基于静态代码文件训练,相当于让模型看一堆代码快照。IQuest-Coder 的做法不同:它试图让模型学习代码仓库的演化轨迹——不只是代码长什么样,还要学习代码是怎么一步步改出来的。

具体来说,他们为每个代码仓库构建了形如(R_old, P, R_new)的三元组训练数据。R_old 代表项目在某个稳定开发阶段的代码状态,P 是捕捉两个状态差异的 Patch 信息(即 commit 变更),R_new 则是迭代后的新状态。

选取起点时有个讲究:他们避开了项目早期不稳定的探索性代码和后期碎片化的维护性修改,专门聚焦于项目生命周期 40%到 80%区间的“成熟期”。理由是这个阶段的代码库相对稳定,变更模式更能反映真实的软件开发逻辑。

这个思路有一定道理。程序员在修 bug 或加新功能时,脑子里转的不是“这段代码是什么”,而是“这段代码要从什么状态变成什么状态”。

Commit 记录天然包含了这种“变更意图”——为什么改、改了哪里、改完之后整体结构如何调整。如果模型能从大量 commit 历史中学到这种模式,理论上应该比只看静态代码更擅长理解“怎么改代码”。

这也解释了为什么 IQuest-Coder 在 SWE-bench 这类需要生成 patch 修复 issue 的任务上表现突出——任务形式本身就和训练数据的结构高度吻合。技术报告中提到的一个发现印证了这点:仓库演化数据(repository transition data)在任务规划能力上提供了比静态快照更好的训练信号。


图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)

预训练阶段,IQuest-Coder 先用通用数据和代码数据打底,随后用高质量代码语料进行退火(Annealing)。这部分比较常规。中间训练阶段则分两期进行:他们在 32K 上下文长度下注入了推理数据、Agent 轨迹和代码数据的混合,随后将上下文扩展到 128K,加入仓库级的长序列样本。

Agent 轨迹数据包含完整的“行动-观察-修正”循环——命令执行、日志输出、错误信息、测试结果等环境反馈。技术报告的说法是,推理数据提供符号层面的逻辑脚手架,Agent 轨迹则提供“闭环智能”,让模型学会根据环境反馈调整行为。他们声称在高质量代码退火之后、后训练之前注入这类数据,能在分布偏移下稳定模型性能。

后训练阶段分成两条路径:Thinking 路径先用包含显式推理轨迹的数据做监督微调,再用强化学习优化推理能力;Instruct 路径则用通用和代码指令数据做监督微调,再用 RL 增强指令遵循能力。

技术报告声称,Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。换言之,RL 可能是解锁代码模型“自主调试”能力的关键。


图丨训练流程(来源:GitHub)

架构方面,Loop 变体的设计比较有意思。LoopCoder 采用循环 Transformer 架构,让参数共享的 Transformer 块执行两次固定迭代。第一次迭代正常处理输入嵌入,第二次迭代同时计算两种注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 对)和局部注意力(维持因果性的常规自注意力)。

两种注意力的输出通过一个基于 query 表示的学习门控机制加权混合。这种设计的目的是在有限参数规模下获得更高的有效计算深度,即用参数共享换取更多计算步骤,在部署效率和模型能力之间找平衡。

后训练的 Thinking 路径也值得一提。技术报告声称,通过强化学习训练的 Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。如果属实,这意味着 RL 可能是解锁代码模型“自主调试”能力的关键,模型不只是生成代码,还能在出错后自我修正。

根据技术报告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解决率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函数调用排行榜)V3 上达到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上达到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成绩是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分别达到 98.5%和 99.4%。


图丨基准测试结果(来源:IQuest-Coder-V1)

当然,SWE-bench Verified 只覆盖 Python 且仅含 500 个样本,社区对“针对榜单优化”的担忧一直存在。其在实际使用中的表现如何,有待社区的进一步测试反馈。

从技术贡献看,IQuest-Coder-V1 最有价值的部分可能是对 commit 演化数据的系统性利用。这个方向此前在学术界有过探索,但在开源模型的大规模训练中应用得并不多。技术报告承诺会开源完整训练流程和中间检查点,这对研究代码模型如何学习软件工程能力将是有价值的参考。至于跑分能否转化为实际生产力,要等更多开发者上手实测才能下结论。

参考资料:

1. https://iquestlab.github.io/#/

来源:https://www.163.com/dy/article/KI9HNCOK05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

雷科技到底是谁?!!!悟空给出的答案,太抓人了!
科技数码
雷科技到底是谁?!!!悟空给出的答案,太抓人了!

从零到一:用AI生成一份专业的媒体影响力报告 但凡在内容或运营团队待过的人,大概都对制作《媒体影响力报告》这类活儿记忆犹新。那过程,堪称一场跨部门接力赛:运营同事得先从各个平台后台手动扒拉数据,计算阅读量、粉丝增长和互动率;拿到一堆冰冷数字后,还得拉着账号负责人反复琢磨定位和文案;最后,抱着半成品火

热心网友
05.01
全国五一劳动奖章获得者聂海平:突破国外技术壁垒 用代码“敲”出属于中国的铺丝机
科技数码
全国五一劳动奖章获得者聂海平:突破国外技术壁垒 用代码“敲”出属于中国的铺丝机

封面新闻记者 邹阿江 图由航空工业成飞提供 2026年“五一”国际劳动节前夕,航空工业成飞的技术专家聂海平,荣获了一枚全国五一劳动奖章。 消息传来,身边同事都说,“大师”拿奖是实至名归。可聂海平自己呢,还是那副老样子——摆摆手,说自己不过是个普通人,幸运地站在一个好平台上,干着点自己感兴趣的事儿罢了

热心网友
05.01
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀
业界动态
每天3小时就够了,技术大牛:在AI时代坚持8小时工作制,你不是在努力,是在自杀

编辑 | 王凤枝 “AI时代,每天干3个小时就足够了。” 这句话出自前亚马逊资深工程师、技术大牛史蒂夫·雅吉(Steve Yegge)之口,算得上是对当前AI狂热的一剂清醒剂。 当整个行业都在为“10倍提效”而欢呼雀跃时,雅吉却点出了一个被普遍忽视的代价:在AI的高强度辅助下,程序员的产出固然爆炸式

热心网友
04.22
你的代码为什么又长又乱?可能是函数没用好
业界动态
你的代码为什么又长又乱?可能是函数没用好

一、概述 每天重复相同的操作,是不是感觉有点枯燥?比如,你每天都要煮饭,得经历洗米、加水、按下煮饭键这三步。如果每次都要从头到尾念叨一遍这个过程,那可就太费劲了。 别担心,函数就是来拯救你的。在Python的世界里,函数就像一个“一键煮饭”的智能按钮。你只需要把那些重复的步骤打包成一个固定的“命令”

热心网友
04.22
Pandas 精通十:透视表/交叉表实战,复杂数据汇总一键搞定
业界动态
Pandas 精通十:透视表/交叉表实战,复杂数据汇总一键搞定

吃透Pandas两大“数据汇总神器”:透视表与交叉表实战指南 在数据处理的工具箱里,如果说基础的清洗、筛选是基本功,那么多维度、交叉式的数据汇总,往往就是区分新手与熟手的分水岭。面对诸如“按地区加品类统计销售额”、“分析不同省份的商品订单分布”这类需求,如果还停留在手动分组、多层循环的老路上,不仅代

热心网友
04.22

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

混音青春迷你相机快速组装方法与成就攻略详解
游戏攻略
混音青春迷你相机快速组装方法与成就攻略详解

在热门游戏《混音青春》中,特殊成就系统为玩家提供了丰富的挑战乐趣。其中,“无须说明”成就以其独特的玩法设计吸引了众多玩家——它要求你在15秒的限时内,快速完成一台迷你相机的完整组装。 无须说明成就怎么做 该成就的核心通关条件非常清晰:你需要在15秒内成功组装好迷你相机。 这个限时组装小游戏会在主线章

热心网友
05.11
欧易OKX订单撤销教程:下错单后如何快速取消与补救指南
web3.0
欧易OKX订单撤销教程:下错单后如何快速取消与补救指南

在欧易OKX交易时,下错订单是常见情况。撤销操作并非全局统一,而是分散在交易页面的不同区域。本文详细介绍了在普通交易、策略委托以及资金账户等关键页面如何找到并执行撤销操作,帮助用户在误操作后及时补救,避免不必要的损失。

热心网友
05.11
OKX交易所App安全下载指南 安卓iOS官网与浏览器下载教程
web3.0
OKX交易所App安全下载指南 安卓iOS官网与浏览器下载教程

本文详细介绍了获取欧乙官方应用的安全渠道,包括官网直接下载、应用商店搜索及版本更新入口。重点分析了安卓系统浏览器下载权限的开启方法,并探讨了不同系统版本对应用兼容性的影响。最后提供了确保下载过程稳定可靠的实用建议,帮助用户避免非官方渠道的风险。

热心网友
05.11
OKX欧易交易所开户注册教程:从实名认证到安全设置完整指南
web3.0
OKX欧易交易所开户注册教程:从实名认证到安全设置完整指南

本文详细介绍了在欧亿平台完成开户注册的全过程,涵盖账户创建、实名认证、安全设置及首次登录等关键步骤。重点阐述了实名认证的必要性与操作流程,并强调了绑定双重验证、资金密码等安全措施的重要性,旨在为用户提供一个清晰、安全的入门指引,帮助其顺利开启数字资产交易之旅。

热心网友
05.11
欧意OKX安全设置全攻略:新手入场前必学的资产保护指南
web3.0
欧意OKX安全设置全攻略:新手入场前必学的资产保护指南

本文针对欧意OKX新用户,强调安全设置是入场前首要任务。详细介绍了如何开启双重验证、管理API密钥、设置提现白名单及识别官方渠道等核心安全功能。通过分步讲解与实用建议,帮助用户建立基础安全屏障,理解平台安全逻辑,从而更安心地探索Web3世界。

热心网友
05.11