Hermes上线MoA功能性能超越Opus 4.8和GPT-5.5_AI热点日报_游乐游手机版

首页/AI热点日报/热点详情

Hermes上线MoA功能性能超越Opus 4.8和GPT-5.5

类型：热点整理2026-07-01

顶尖闭源模型相继遭到禁用，而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说，究竟该如何选择？近期，Hermes Agent正式上线了MoA（Mixture of Agents）功能，支持用户自由组合多种模型，将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试

顶尖闭源模型相继遭到禁用，而单一模型往往难以应对所有复杂任务。对于追求高质量输出的用户来说，究竟该如何选择？

近期，Hermes Agent正式上线了MoA（Mixture of Agents）功能，支持用户自由组合多种模型，将其集成为一个虚拟模型来使用。在Nous Research即将公布的基准测试中，这一混合模型的评分竟然超越了Opus 4.8和GPT-5.5。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

Fable 5、Mythos 5被禁，多模型组合成为潮流

Nous Research在官方推特上表示：“最强大的模型往往受限，仅少数人能够获取访问权限。”这番话显然指向Fable 5等模型被封禁的现状。在此背景下，MoA的终极目标变得十分清晰——通过组合开源模型，达到甚至超越顶尖闭源模型的水准。正如Hermes Agent联合创始人Teknium所说，他们正在测试各种开源模型组合，探讨是否能用性价比更高的模型实现Opus级别的表现。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

事实上，多模型组合这一思路近期已有不少实践案例。例如，日本AI独角兽Sakana AI发布的Sakana Fugu系列编排器模型，会根据具体任务自动选择最优模型进行处理，其理念与MoA高度相似。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

而MoA的技术原理并非全新概念。2024年6月，Together AI曾发表论文《Mixture-of-Agents Enhances Large Language Model Capabilities》，核心思想是多LLM协作——每一层模型都会参考上一层模型的输出，再继续生成自身回答。论文将模型划分为两类，即目前Hermes所使用的参考模型和聚合模型。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

具体而言，当用户提出问题后，参考模型会首先进行分析判断，提供参考意见；随后由聚合模型综合评估，并调用工具执行具体任务。这里有一个关键点：参考模型仅负责生成意见，不会调用任何工具，也不执行任何命令。这种模式能够充分发挥不同模型的独特优势，让擅长规划的模型提供思路，让长于实践的模型完成落地操作。

使用方法也非常简单。以桌面版为例，进入设置界面，点开模型选项，向下滚动即可看到Mixture of Agents选项，直接选择想要组合的模型即可。默认配置为两个参考模型加一个聚合模型，当然，用户也可以手动添加更多参考模型。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

实测做游戏更丝滑，Token消耗量相差不大

有海外博主进行了实际测试，使用两种不同的模型组合分别生成了游戏和交互页面。结果发现，开启MoA后，任务完成时间并非一定延长，而是随模型选择的不同而变化；同时，Token的消耗量也没有预期中那么惊人。

博主首先测试了一个小游戏的制作——使用Three.js开发一款原力海盗训练竞技场游戏。为了对比效果，他先单独使用glm-5.2模型进行测试，输入相同的提示词：

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

Hermes花费了0.38美元，耗时13分钟完成了这个游戏。可以看到，单一glm-5.2生成的整体效果尚可，但在移动速度与操作流畅度方面存在明显不足——比如飞船难以有效躲避敌人攻击，导致游戏可玩性有所欠缺。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

随后，博主启用了MoA模式，选用kimi-k2.6和minimax-m3作为参考模型，glm-5.2作为聚合模型，重新开启对话并输入完全相同的提示词。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

此次任务中，Hermes花费了0.47美元，耗时35分钟完成。虽然成本稍有上升，所用时间也增加了近三倍，但MoA模式下的生成效果明显更优——移动速度、操作流畅度以及关卡设计合理性均远胜于单一模型的输出。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

接下来，博主又使用顶尖闭源模型GPT-5.5进行了测试。这次任务是让Hermes生成一个可交互的动漫多元宇宙仪表盘，涵盖火影忍者、海贼王、龙珠等知名IP。对照组依然采用单一模型，即直接用GPT-5.5执行任务。由于GPT-5.5是订阅制，博主坦言无法精确核算成本。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

Hermes用时接近7分钟完成了任务。设计的仪表盘中间光球周围的光圈略显简单，质感有所欠缺，但整体交互非常流畅。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

随后，博主改用三个grok模型作为参考模型，GPT-5.5作为聚合模型进行同样测试。出乎意料的是，MoA模式下的Hermes生成速度反而更快，博主推测这可能是由于使用了grok快速模型的缘故。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

这次的生成效果明显更具质感——中间光球的设计感更强，整体交互体验非常顺滑，点击不同星球时还能实现远近景的切换。

Hermes新功能上线！比Opus 4.8和GPT-5.5还猛

结语：未来比拼的不只是模型

过去，大模型领域的竞争几乎围绕“谁的模型更强”展开，用户需要不断切换模型，在编程、写作、推理等不同任务中寻找最适合的选择。

然而，MoA、Sakana Fugu等技术的出现，已经开辟了另一条发展路径：与其等待一个“万能模型”，不如让多个各有所长的模型协同完成同一项任务。

这种向“编排”方向演进的大趋势，恰好契合了Agent的核心要求。模型是底层能力，Agent则负责组织不同模型进行协作——让规划能力强的模型主导思考，让执行能力强的模型负责落地。

当然，目前MoA需要承担更高的推理成本，在某些任务上耗时也会显著增加，因此并非所有场景都适合开启。但随着推理成本持续降低、开源模型性能不断提升，多模型协作非常有可能成为Agent未来的默认工作模式。

来源：https://www.aitntnews.com/newDetail.html?newId=26727

其他

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。