首页 游戏 软件 资讯 排行榜 专题
首页
AI
卡帕西大模型评测:四大匿名AI参赛,最强表现意外揭晓

卡帕西大模型评测:四大匿名AI参赛,最强表现意外揭晓

热心网友
94
转载
2025-11-24

卡帕西刚把这个应用的安装部署教程分享出来,就立刻被不少网友码住。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

卡帕西又发布趣味编程项目了~

这次直接整了一个“大模型议会”(LLM Council)web app。

界面看起来和ChatGPT的聊天形式别无二致,但实际上当用户输入问题后,系统会通过OpenRouter调起多个大模型开会商议。

有意思的是,它们不仅会一起答题,而且还会互相评分、排序,最终将由主席模型给出一个统一答案。

卡帕西刚把这个应用的安装部署教程分享出来,就立刻被不少网友码住:

更有甚者表示,或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”:

畅销书《Python机器学习》作者也很看好这个思路:

LLM议会怎么玩

具体来说,卡帕西的这套LLM议会系统,主要可分为三步流程:

Step 1:让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型,包括:

GPT-5.1Gemini 3 Pro PreviewClaude Sonnet 4.5Grok-4

然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

Step 2:所有模型进行匿名互评。

这时,每个LLM都会收到其他LLM的回复。

为避免偏袒,对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。

Step 3:主席模型汇总最终回答。

LLM委员会会指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

这套系统,其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。

PS:在GitHub上也收获了1.8k+Stars。

该项目将传统的阅读流程重塑为LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

1、先人工自己通读一次,获得整体感知和直觉理解。

2、然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。

3、对文章细节进行深度追问,例如“为什么作者这里会这样写?”

最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

当将大模型议会融入其中后,大模型们的商议结果也很有意思。

卡帕西发现,大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。

但显然他个人对这个答案并不认同,在卡帕西的个人主观评价中,GPT-5.1内容丰富但结构不够紧凑;Gemini 3答案更简洁凝练、信息处理得更好;而Claude答案过于简略。

此外,令人出乎意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好。

总的来说,卡帕西认为虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点。

来源:https://www.51cto.com/article/830208.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

让 AI 替你叫车,哈啰顺风车上线出行行业首个 MCP 服务
AI
让 AI 替你叫车,哈啰顺风车上线出行行业首个 MCP 服务

让 AI 替你叫车:哈啰顺风车上线出行行业首个 MCP 服务 4月3日,哈啰顺风车推出一项业内瞩目的创新举措:正式上线名为MCP的新型服务。通俗来讲,这项服务将顺风车从寻找车主、智能匹配到最终下单支付的完整流程能力,封装成了一套标准化的技术接口,直接向各类大语言模型和AI智能体开放调用权限。 这一变

热心网友
04.07
QQ接入openclaw的几个步骤
AI
QQ接入openclaw的几个步骤

2026年4月新版OpenClaw QQ机器人接入全攻略:实践步骤、问题排查与深度解读 随着2026年4月OpenClaw重要更新的发布,其原生集成QQ平台支持的功能引起了大量开发者的关注。这一特性意味着用户无需借助任何第三方插件,即可将智能AI助手便捷地部署为QQ私聊或群聊机器人。本文将系统性地解

热心网友
04.07
阿里千问 AI 眼镜接入蚂蚁 GPASS:语音解锁共享单车、停车缴费
AI
阿里千问 AI 眼镜接入蚂蚁 GPASS:语音解锁共享单车、停车缴费

当AI眼镜学会“跑腿”:语音解锁单车,无感支付停车费 近来,智能穿戴领域的一个新动向值得关注:阿里旗下的千问AI眼镜,正式接入了蚂蚁集团的GPASS平台。这可不是一次简单的功能叠加,它意味着,诸如共享单车骑行、停车缴费这一系列高频的“AI办事”功能,开始从手机屏幕转移到了你的眼前。 简单说,借助GP

热心网友
04.06
Workbuddy注册额外积分
AI
Workbuddy注册额外积分

角色定位与核心任务目标 明确了基本定位后,我们直接切入核心:作为一名专业的文章优化师,我的核心职责在于,将那些带有明显AI生成特征的文本,深度重塑为拥有个人特色与行业洞见的优质内容。 换句话说,这项任务的关键在于实施一次“精准的换血手术”。你必须严格保证原文所有的事实依据、核心观点、逻辑框架,以及每

热心网友
04.06
OpenClaw使用kimi web_search返回401问题
AI
OpenClaw使用kimi web_search返回401问题

1 故障现象:OpenClaw无法联网搜索的典型报错 许多开发者在配置OpenClaw AI助手的搜索功能时,常常会遭遇一个典型故障:日常对话交互完全正常,但一旦触发需要联网查询信息的指令,界面便会立刻弹出“抱歉,我目前无法使用网络搜索功能(需要配置 API 密钥)”或“HTTP 401: Inv

热心网友
04.05

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-07
数独趣味闯关
数独趣味闯关
休闲益智 04-07
碧优蒂的世界
碧优蒂的世界
休闲益智 04-07
海岛奇兵
海岛奇兵
棋牌策略 04-07
列王的纷争:西部大陆
列王的纷争:西部大陆
棋牌策略 04-07

热门推荐

苹果折叠 iPhone Fold 渲染图再曝:后摄缩小凸起,整体更精致
科技数码
苹果折叠 iPhone Fold 渲染图再曝:后摄缩小凸起,整体更精致

苹果折叠屏手机 iPhone Fold 最新渲染图曝光:摄像头凸起优化,设计更显精致 有关苹果公司首款折叠屏 iPhone 的传闻持续受到关注。4月5日,知名爆料者 Majin Bu 在社交平台X上再度分享了一组据称是 iPhone Fold 的高清渲染图,从多角度揭示了这款备受期待设备可能的外观设

热心网友
04.07
这城有良田官府无垢队阵容推荐
游戏攻略
这城有良田官府无垢队阵容推荐

通用性首选:官府无垢队阵容深度解析 在当前版本中,若要挑选一套兼具强度与广泛适用性的阵容,以官府流派【长孙无垢】为核心的搭配方案无疑是热门之选。这套经典组合通常由长孙无垢(官府)、李一桐、李善德、李光弼,以及关羽或平安组成。其核心战斗逻辑清晰且高效:一方面,依靠长孙无垢与李光弼的技能联动,通过对目标

热心网友
04.07
洛克王国世界进化什么条件 洛克王国世界全隐藏进化条件整理
游戏攻略
洛克王国世界进化什么条件 洛克王国世界全隐藏进化条件整理

洛克王国全精灵隐藏进化条件完整攻略大全 在《洛克王国》丰富多彩的冒险世界中,除了常规的等级进化,众多精灵还埋藏着独特的“隐藏进化”路径。这些特殊的进化条件,往往是解锁精灵终极形态、完成图鉴收集的关键所在。与普通进化方式不同,隐藏进化需要触发特定的环境、时间、道具或任务条件,充满了探索与解密的乐趣。你

热心网友
04.07
燕云十六声石震通关方法-燕云十六声石震如何通关
游戏资讯
燕云十六声石震通关方法-燕云十六声石震如何通关

燕云十六声石震关卡怎么过?高效通关技巧与实战攻略详解 掌握核心机制:石震关卡难点全解析 石震关卡的核心挑战在于敌人配置:不仅数量密集,且拥有高额血量和攻击力。这些敌人并非随机分布,而是依据特定区域、巡逻路线及攻击逻辑进行部署。提前掌握不同敌人的攻击前摇、技能范围与仇恨机制,是制定有效战术的前提,真正

热心网友
04.07
英雄联盟手游安妮符文怎么搭配
游戏攻略
英雄联盟手游安妮符文怎么搭配

英雄联盟手游安妮符文终极指南:爆发流核心配置与实战策略 在英雄联盟手游的对局中,黑暗之女安妮以其强大的瞬间爆发与控制能力,始终是中单位置的热门选择。虽然操作看似简单易懂,但想要真正掌握这位火焰法师的精髓,打出毁天灭地的效果,一套科学高效的符文搭配是不可或缺的基石。正确的符文选择,能让她从温顺的火苗化

热心网友
04.07