游乐游手机版
首页/AI热点日报/热点详情

Hermes上线MoA功能性能超越Opus 4.8和GPT-5.5

类型:热点整理2026-07-01
顶尖闭源模型相继遭到禁用,而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说,究竟该如何选择?近期,Hermes Agent正式上线了MoA(Mixture of Agents)功能,支持用户自由组合多种模型,将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试

顶尖闭源模型相继遭到禁用,而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说,究竟该如何选择?

近期,Hermes Agent正式上线了MoA(Mixture of Agents)功能,支持用户自由组合多种模型,将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试中,这一混合模型的评分竟然超越了Opus 4.8和GPT-5.5。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Fable 5、Mythos 5被禁,多模型组合成为潮流

Nous Research在官方推特上表示:“最强大的模型往往受限,仅少数人能够获取访问权限。”这番话显然指向Fable 5等模型被封禁的现状。在此背景下,MoA的终极目标变得十分清晰——通过组合开源模型,达到甚至超越顶尖闭源模型的水准。正如Hermes Agent联合创始人Teknium所说,他们正在测试各种开源模型组合,探讨是否能用性价比更高的模型实现Opus级别的表现。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

事实上,多模型组合这一思路近期已有不少实践案例。例如,日本AI独角兽Sakana AI发布的Sakana Fugu系列编排器模型,会根据具体任务自动选择最优模型进行处理,其理念与MoA高度相似。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

而MoA的技术原理并非全新概念。2024年6月,Together AI曾发表论文《Mixture-of-Agents Enhances Large Language Model Capabilities》,核心思想是多LLM协作——每一层模型都会参考上一层模型的输出,再继续生成自身回答。论文将模型划分为两类,即目前Hermes所使用的参考模型和聚合模型。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

具体而言,当用户提出问题后,参考模型会首先进行分析判断,提供参考意见;随后由聚合模型综合评估,并调用工具执行具体任务。这里有一个关键点:参考模型仅负责生成意见,不会调用任何工具,也不执行任何命令。这种模式能够充分发挥不同模型的独特优势,让擅长规划的模型提供思路,让长于实践的模型完成落地操作。

使用方法也非常简单。以桌面版为例,进入设置界面,点开模型选项,向下滚动即可看到Mixture of Agents选项,直接选择想要组合的模型即可。默认配置为两个参考模型加一个聚合模型,当然,用户也可以手动添加更多参考模型。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

实测做游戏更丝滑,Token消耗量相差不大

有海外博主进行了实际测试,使用两种不同的模型组合分别生成了游戏和交互页面。结果发现,开启MoA后,任务完成时间并非一定延长,而是随模型选择的不同而变化;同时,Token的消耗量也没有预期中那么惊人。

博主首先测试了一个小游戏的制作——使用Three.js开发一款原力海盗训练竞技场游戏。为了对比效果,他先单独使用glm-5.2模型进行测试,输入相同的提示词:

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Hermes花费了0.38美元,耗时13分钟完成了这个游戏。可以看到,单一glm-5.2生成的整体效果尚可,但在移动速度与操作流畅度方面存在明显不足——比如飞船难以有效躲避敌人攻击,导致游戏可玩性有所欠缺。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

随后,博主启用了MoA模式,选用kimi-k2.6和minimax-m3作为参考模型,glm-5.2作为聚合模型,重新开启对话并输入完全相同的提示词。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

此次任务中,Hermes花费了0.47美元,耗时35分钟完成。虽然成本稍有上升,所用时间也增加了近三倍,但MoA模式下的生成效果明显更优——移动速度、操作流畅度以及关卡设计合理性均远胜于单一模型的输出。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

接下来,博主又使用顶尖闭源模型GPT-5.5进行了测试。这次任务是让Hermes生成一个可交互的动漫多元宇宙仪表盘,涵盖火影忍者、海贼王、龙珠等知名IP。对照组依然采用单一模型,即直接用GPT-5.5执行任务。由于GPT-5.5是订阅制,博主坦言无法精确核算成本。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Hermes用时接近7分钟完成了任务。设计的仪表盘中间光球周围的光圈略显简单,质感有所欠缺,但整体交互非常流畅。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

随后,博主改用三个grok模型作为参考模型,GPT-5.5作为聚合模型进行同样测试。出乎意料的是,MoA模式下的Hermes生成速度反而更快,博主推测这可能是由于使用了grok快速模型的缘故。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

这次的生成效果明显更具质感——中间光球的设计感更强,整体交互体验非常顺滑,点击不同星球时还能实现远近景的切换。

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

结语:未来比拼的不只是模型

过去,大模型领域的竞争几乎围绕“谁的模型更强”展开,用户需要不断切换模型,在编程、写作、推理等不同任务中寻找最适合的选择。

然而,MoA、Sakana Fugu等技术的出现,已经开辟了另一条发展路径:与其等待一个“万能模型”,不如让多个各有所长的模型协同完成同一项任务。

这种向“编排”方向演进的大趋势,恰好契合了Agent的核心要求。模型是底层能力,Agent则负责组织不同模型进行协作——让规划能力强的模型主导思考,让执行能力强的模型负责落地。

当然,目前MoA需要承担更高的推理成本,在某些任务上耗时也会显著增加,因此并非所有场景都适合开启。但随着推理成本持续降低、开源模型性能不断提升,多模型协作非常有可能成为Agent未来的默认工作模式。

来源:https://www.aitntnews.com/newDetail.html?newId=26727

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。