Ornith-1.0开源自我进化编程智能体模型发布刷新多项SOTA纪录_AI热点日报

Ornith-1.0开源自我进化编程智能体模型发布刷新多项SOTA纪录

类型：热点整理2026-07-01

先说几个核心判断。近期，deepreinforce-ai团队正式推出了Ornith-1 0系列，这是一个完全开源且具备自我进化能力的编程智能体模型家族，模型规模从9B一路覆盖到397B。该系列基于Gemma 4和Qwen 3 5这两个成熟的基础模型进行后期训练，但最大亮点在于其训练方法——一套创新的

先说几个核心判断。近期，deepreinforce-ai团队正式推出了Ornith-1.0系列，这是一个完全开源且具备自我进化能力的编程智能体模型家族，模型规模从9B一路覆盖到397B。该系列基于Gemma 4和Qwen 3.5这两个成熟的基础模型进行后期训练，但最大亮点在于其训练方法——一套创新的强化学习（RL）框架，不仅优化最终生成的代码方案，连生成方案的过程（即“脚手架”）也一并优化。最终，在Terminal-Bench、SWE-Bench等一系列权威编程基准测试中，Ornith-1.0交出了一份非常亮眼的成绩单。更值得关注的是，它采用MIT协议发布，全球开发者都能自由访问，没有任何地域限制。这意味着一件非常实在的事：一款高质量、无约束的智能编程工具，现在真的就在手边了。

核心要点

多规格模型矩阵：Ornith-1.0提供了9B-Dense、31B-Dense、35B-MoE以及397B-MoE四种版本，覆盖从轻量到超大规模的不同算力需求。
自我进化训练框架：利用强化学习（RL），不仅优化最终解决方案，连驱动方案生成的脚手架（scaffold）也同步优化，相当于直接提升了搜索路径的质量。
领先的基准表现：在Terminal-Bench 2.1、SWE-Bench、NL2Repo等权威编程测试中，性能均显著优于同规模的开源模型，部分指标甚至超越了参数量大得多的对手。
完全开源与全球可用：采用MIT许可协议，全球范围内可自由访问，没有任何地域限制，商用也无障碍。
强大的底座支撑：模型是在Gemma 4和Qwen 3.5的基础上进行后期训练（post-trained）而成，基础能力本身就很扎实。

详细分析

多规格模型矩阵与领先基准表现

Ornith-1.0系列在智能编程（Agentic Coding）领域的竞争力，从数据上看得一清二楚。全系列从轻量的9B到超大规模的397B-MoE，覆盖了主流算力区间。从实际测试结果来看，它在多个核心基准中均拿下了同规模最优成绩（State-of-the-Art）。

具体来说，在Terminal-Bench 2.1（Terminus-2）测试中，Ornith-1.0-9B版本得分43.1——这个数字几乎是Qwen3.5-9B（21.3分）的两倍。而Ornith-1.0-35B版本更是直接拿到了64.2分，甚至超过了参数量大得多的Qwen3.5-397B（53.5分）。在业内非常关注的SWE-bench Verified测试中，Ornith-1.0-35B以75.6的成绩，超越了Qwen3.5-35B的70分。这组数据传递的信号非常明确：通过精细的后期训练和架构层面的优化，Ornith-1.0在处理复杂的软件工程任务、多语言编程以及仓库级代码理解（NL2Repo）方面，确实拥有实打实的优势。

强化学习驱动的自我进化机制

Ornith-1.0的核心竞争力，说到底在于这个“自我进化训练框架”。传统的训练方式，往往只盯着最终生成的代码好不好，至于模型是如何一步步想出这段代码的，基本是黑箱操作。Ornith-1.0的做法则完全不同：它用强化学习（RL）同时学习两件事——一是生成解决方案的具体过程（rollouts），二是驱动这些过程的“脚手架”（scaffold）。

这背后的逻辑是什么？说白了，就是让模型在训练中自己去发现更优的搜索路径。随着迭代，模型会学会识别哪些思考步骤、哪些中间环节能真正导向高质量的代码。而“脚手架”和“方案”之间这种协同进化的机制，使得Ornith-1.0在面对全新编程难题时，展现出更强的逻辑推理能力和自主纠错能力——这正是智能体编程（Agentic Coding）任务中最核心的能力。这么说可能有点抽象，打个比方：传统训练是只教学生写作文的最终成稿，而Ornith-1.0的做法，是连学生打草稿、列提纲的思考过程也一起教，并且还让这两者互相促进。

开源生态与全球可访问性

在眼下AI模型竞争白热化的环境里，Ornith-1.0选择了一条彻底的开源路线，值得单独拿出来说一说。它采用MIT许可协议——这是开源界最宽松的协议之一，意味着全球范围内的开发者、研究机构和企业，都可以自由下载、使用、修改、分发，甚至商用，完全没有版权纠纷或地域限制的顾虑。

而且，Ornith-1.0基于Gemma 4和Qwen 3.5这两个底子很好的基础模型进行二次开发，充分吸收了已有大模型在语言理解方面的能力，再针对编程场景做了深度强化。这种“站在巨人肩膀上”进行垂直创新的模式，既保证了基础素质，又为社区贡献了一个高质量的编程专用模型。对于推动全球自动化软件工程技术的发展而言，这无疑是一个实实在在的进展。

行业影响

Ornith-1.0的发布，对AI编程行业的影响可能不只是多了一个新模型那么简单。首先，它用实际效果证明了一件事：通过强化学习来优化“思考过程”（也就是脚手架），是提升编程智能体性能的有效路径。这个思路很可能引发行业对训练方法论的新一轮讨论。其次，Ornith-1.0以较小的参数量（比如35B版本）在多项指标上超越了大它很多的模型，展现了非常高的参数效率。这对于企业来说，意味着部署AI编程助手的成本有望进一步降低。最后，MIT协议的开放性，将进一步削弱技术壁垒，促进编程智能体技术在各种开发环境和工具链中的集成。可以预见，Ornith-1.0的开源，会成为推动整个生态往前走的一个重要推力。

常见问题

问题 1：Ornith-1.0主要针对哪些编程场景进行了优化？

Ornith-1.0是专门针对“智能体编程”（Agentic Coding）进行优化的。具体来说，这包括在终端环境下的交互操作（Terminal-Bench）、解决真实的GitHub问题（SWE-bench）、从自然语言到仓库级代码的转换（NL2Repo），以及多语言编程环境。它不仅会写代码，更重要的是，它会像人类程序员一样，先想清楚问题的解决步骤，再去执行。

问题 2：Ornith-1.0的自我进化是如何实现的？

它采用了一种基于强化学习（RL）的训练框架。这个框架不只是训练模型去生成最终的代码答案，同时还训练模型去生成引导这些答案的逻辑结构——也就是所谓的“脚手架”。通过联合优化这两者，模型能够自主发现更高效的解题路径，从而实现性能的自我提升。这个思路，本质上就是把“怎么想”和“怎么写”放在一起学。

问题 3：开发者可以免费商用Ornith-1.0吗？

完全可以。Ornith-1.0采用的是MIT许可协议，这是开源界最宽松的协议之一。开发者可以免费将其用于商业用途，而且模型发布方已经明确表示，没有任何地域限制——全球开发者都可以访问和使用。

来源：https://aitoolly.com/zh/ai-news/article/2026-06-30-ornith-10-new-open-source-self-improving-models-set-state-of-the-art-benchmarks-for-agentic-coding-t

SOTA

延伸阅读

补充最近整理过的热点入口。