游乐游手机版
首页/AI热点日报/热点详情

Ornith-1.0开源自我进化编程智能体模型发布刷新多项SOTA纪录

类型:热点整理2026-07-01
先说几个核心判断。近期,deepreinforce-ai团队正式推出了Ornith-1 0系列,这是一个完全开源且具备自我进化能力的编程智能体模型家族,模型规模从9B一路覆盖到397B。该系列基于Gemma 4和Qwen 3 5这两个成熟的基础模型进行后期训练,但最大亮点在于其训练方法——一套创新的

先说几个核心判断。近期,deepreinforce-ai团队正式推出了Ornith-1.0系列,这是一个完全开源且具备自我进化能力的编程智能体模型家族,模型规模从9B一路覆盖到397B。该系列基于Gemma 4和Qwen 3.5这两个成熟的基础模型进行后期训练,但最大亮点在于其训练方法——一套创新的强化学习(RL)框架,不仅优化最终生成的代码方案,连生成方案的过程(即“脚手架”)也一并优化。最终,在Terminal-Bench、SWE-Bench等一系列权威编程基准测试中,Ornith-1.0交出了一份非常亮眼的成绩单。更值得关注的是,它采用MIT协议发布,全球开发者都能自由访问,没有任何地域限制。这意味着一件非常实在的事:一款高质量、无约束的智能编程工具,现在真的就在手边了。

核心要点

  • 多规格模型矩阵:Ornith-1.0提供了9B-Dense、31B-Dense、35B-MoE以及397B-MoE四种版本,覆盖从轻量到超大规模的不同算力需求。
  • 自我进化训练框架:利用强化学习(RL),不仅优化最终解决方案,连驱动方案生成的脚手架(scaffold)也同步优化,相当于直接提升了搜索路径的质量。
  • 领先的基准表现:在Terminal-Bench 2.1、SWE-Bench、NL2Repo等权威编程测试中,性能均显著优于同规模的开源模型,部分指标甚至超越了参数量大得多的对手。
  • 完全开源与全球可用:采用MIT许可协议,全球范围内可自由访问,没有任何地域限制,商用也无障碍。
  • 强大的底座支撑:模型是在Gemma 4和Qwen 3.5的基础上进行后期训练(post-trained)而成,基础能力本身就很扎实。

详细分析

多规格模型矩阵与领先基准表现

Ornith-1.0系列在智能编程(Agentic Coding)领域的竞争力,从数据上看得一清二楚。全系列从轻量的9B到超大规模的397B-MoE,覆盖了主流算力区间。从实际测试结果来看,它在多个核心基准中均拿下了同规模最优成绩(State-of-the-Art)。

具体来说,在Terminal-Bench 2.1(Terminus-2)测试中,Ornith-1.0-9B版本得分43.1——这个数字几乎是Qwen3.5-9B(21.3分)的两倍。而Ornith-1.0-35B版本更是直接拿到了64.2分,甚至超过了参数量大得多的Qwen3.5-397B(53.5分)。在业内非常关注的SWE-bench Verified测试中,Ornith-1.0-35B以75.6的成绩,超越了Qwen3.5-35B的70分。这组数据传递的信号非常明确:通过精细的后期训练和架构层面的优化,Ornith-1.0在处理复杂的软件工程任务、多语言编程以及仓库级代码理解(NL2Repo)方面,确实拥有实打实的优势。

强化学习驱动的自我进化机制

Ornith-1.0的核心竞争力,说到底在于这个“自我进化训练框架”。传统的训练方式,往往只盯着最终生成的代码好不好,至于模型是如何一步步想出这段代码的,基本是黑箱操作。Ornith-1.0的做法则完全不同:它用强化学习(RL)同时学习两件事——一是生成解决方案的具体过程(rollouts),二是驱动这些过程的“脚手架”(scaffold)。

这背后的逻辑是什么?说白了,就是让模型在训练中自己去发现更优的搜索路径。随着迭代,模型会学会识别哪些思考步骤、哪些中间环节能真正导向高质量的代码。而“脚手架”和“方案”之间这种协同进化的机制,使得Ornith-1.0在面对全新编程难题时,展现出更强的逻辑推理能力和自主纠错能力——这正是智能体编程(Agentic Coding)任务中最核心的能力。这么说可能有点抽象,打个比方:传统训练是只教学生写作文的最终成稿,而Ornith-1.0的做法,是连学生打草稿、列提纲的思考过程也一起教,并且还让这两者互相促进。

开源生态与全球可访问性

在眼下AI模型竞争白热化的环境里,Ornith-1.0选择了一条彻底的开源路线,值得单独拿出来说一说。它采用MIT许可协议——这是开源界最宽松的协议之一,意味着全球范围内的开发者、研究机构和企业,都可以自由下载、使用、修改、分发,甚至商用,完全没有版权纠纷或地域限制的顾虑。

而且,Ornith-1.0基于Gemma 4和Qwen 3.5这两个底子很好的基础模型进行二次开发,充分吸收了已有大模型在语言理解方面的能力,再针对编程场景做了深度强化。这种“站在巨人肩膀上”进行垂直创新的模式,既保证了基础素质,又为社区贡献了一个高质量的编程专用模型。对于推动全球自动化软件工程技术的发展而言,这无疑是一个实实在在的进展。

行业影响

Ornith-1.0的发布,对AI编程行业的影响可能不只是多了一个新模型那么简单。首先,它用实际效果证明了一件事:通过强化学习来优化“思考过程”(也就是脚手架),是提升编程智能体性能的有效路径。这个思路很可能引发行业对训练方法论的新一轮讨论。其次,Ornith-1.0以较小的参数量(比如35B版本)在多项指标上超越了大它很多的模型,展现了非常高的参数效率。这对于企业来说,意味着部署AI编程助手的成本有望进一步降低。最后,MIT协议的开放性,将进一步削弱技术壁垒,促进编程智能体技术在各种开发环境和工具链中的集成。可以预见,Ornith-1.0的开源,会成为推动整个生态往前走的一个重要推力。

常见问题

问题 1:Ornith-1.0主要针对哪些编程场景进行了优化?

Ornith-1.0是专门针对“智能体编程”(Agentic Coding)进行优化的。具体来说,这包括在终端环境下的交互操作(Terminal-Bench)、解决真实的GitHub问题(SWE-bench)、从自然语言到仓库级代码的转换(NL2Repo),以及多语言编程环境。它不仅会写代码,更重要的是,它会像人类程序员一样,先想清楚问题的解决步骤,再去执行。

问题 2:Ornith-1.0的自我进化是如何实现的?

它采用了一种基于强化学习(RL)的训练框架。这个框架不只是训练模型去生成最终的代码答案,同时还训练模型去生成引导这些答案的逻辑结构——也就是所谓的“脚手架”。通过联合优化这两者,模型能够自主发现更高效的解题路径,从而实现性能的自我提升。这个思路,本质上就是把“怎么想”和“怎么写”放在一起学。

问题 3:开发者可以免费商用Ornith-1.0吗?

完全可以。Ornith-1.0采用的是MIT许可协议,这是开源界最宽松的协议之一。开发者可以免费将其用于商业用途,而且模型发布方已经明确表示,没有任何地域限制——全球开发者都可以访问和使用。

来源:https://aitoolly.com/zh/ai-news/article/2026-06-30-ornith-10-new-open-source-self-improving-models-set-state-of-the-art-benchmarks-for-agentic-coding-t

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。