首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
卡帕西大模型评测:四大匿名AI参赛,最强表现意外揭晓

卡帕西大模型评测:四大匿名AI参赛,最强表现意外揭晓

热心网友
45
转载
2025-11-24

卡帕西刚把这个应用的安装部署教程分享出来,就立刻被不少网友码住。

卡帕西又发布趣味编程项目了~

这次直接整了一个“大模型议会”(LLM Council)web app。

界面看起来和ChatGPT的聊天形式别无二致,但实际上当用户输入问题后,系统会通过OpenRouter调起多个大模型开会商议。

有意思的是,它们不仅会一起答题,而且还会互相评分、排序,最终将由主席模型给出一个统一答案。

卡帕西刚把这个应用的安装部署教程分享出来,就立刻被不少网友码住:

更有甚者表示,或许以后模型自己评价模型本身就能变成一种新的“自动benchmark”:

畅销书《Python机器学习》作者也很看好这个思路:

LLM议会怎么玩

具体来说,卡帕西的这套LLM议会系统,主要可分为三步流程:

Step 1:让多个模型同时回答一个问题。

首先使用中间层OpenRouter同时调用多个大模型,包括:

GPT-5.1Gemini 3 Pro PreviewClaude Sonnet 4.5Grok-4

然后在同一问题下逐个收集它们的回复,并以标签视图的形式展示,以便用户进行检查。

Step 2:所有模型进行匿名互评。

这时,每个LLM都会收到其他LLM的回复。

为避免偏袒,对它们的身份都做了匿名化处理。

然后要求模型根据准确性和洞察力对其他模型的回答质量进行评估,需要给出评分和详细理由。

Step 3:主席模型汇总最终回答。

LLM委员会会指定一名主席,将所有模型的回复汇总,并形成一个最终的答案,再转交给用户。

于是通过这个过程,就能直接对比不同模型,在处理同一个问题时的风格差异,而且能够直观地看到模型之间互相评价的过程。

这套系统,其实是延续了卡帕西最近分享的用LLM分阶段深度阅读的项目。

PS:在GitHub上也收获了1.8k+Stars。

该项目将传统的阅读流程重塑为LLM协作的流程,通常阅读一篇文章内容也分为三个阶段:

1、先人工自己通读一次,获得整体感知和直觉理解。

2、然后将内容交给大模型处理,让它理解重难点、提取结构、总结内容等。

3、对文章细节进行深度追问,例如“为什么作者这里会这样写?”

最终就是将写作对象从人类读者转变为LLM读者,让LLM作为中介理解内容,再个性化翻译给不同的读者听。

当将大模型议会融入其中后,大模型们的商议结果也很有意思。

卡帕西发现,大模型一致认为最强、最有洞见的答案来自GPT-5.1,而Claude被公认为最弱,Gemini 3和Grok-4则排名位于中间。

但显然他个人对这个答案并不认同,在卡帕西的个人主观评价中,GPT-5.1内容丰富但结构不够紧凑;Gemini 3答案更简洁凝练、信息处理得更好;而Claude答案过于简略。

此外,令人出乎意料的是,模型几乎很少出现明显的偏见,它们通常会愿意承认自己的答案不如另一个模型好。

总的来说,卡帕西认为虽然模型内部自评不一定与人类主观一致,但类似的多模型集成或许将成为一个巨大的可探索空间,甚至可能成为未来LLM产品的一个突破点。

来源:https://www.51cto.com/article/830208.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI时代如何获取新知成为创作者必备技能
科技数码
AI时代如何获取新知成为创作者必备技能

从“AI画饼”到“真金白银”:大模型商业化的现实路径与盈利模式 大模型的热潮已持续近两年。从最初的万众瞩目到如今的理性回归,整个行业面临的核心挑战愈发清晰:技术固然领先,但可持续的商业模式在哪里?当资本热潮逐渐消退,实现商业化盈利已不再是战略选项,而是企业生存与发展的关键底线。 当前市场已形成明

热心网友
05.23
ImgCreator AI 人工智能图像生成工具使用指南
AI教程
ImgCreator AI 人工智能图像生成工具使用指南

在AI绘画与图像生成工具不断涌现的今天,找到一款既简单易用又能激发深度创意的平台并不容易。本文重点评测的ImgCreator AI,正是这样一个值得关注的AI图像生成器。它是一款强大的人工智能文生图工具,能够将文本描述快速转化为高质量的插画、动漫、概念艺术及设计素材,让您的创意构思迅速变为可视化的现

热心网友
05.23
豆包AI读书笔记制作指南 快速提炼书籍核心内容
AI资讯
豆包AI读书笔记制作指南 快速提炼书籍核心内容

豆包AI能根据书籍类型与笔记需求,通过多种方式提炼核心内容。常见书籍可直接输入书名获取摘要;冷门或内部资料可上传文件分析。深度阅读可分章节提问构建结构化笔记,长篇PDF可借助插件自动处理。无章节标记的文本需手动引导AI划分逻辑单元并概括,最终整合为连贯笔记。

热心网友
05.23
海螺AI产品FAQ自动生成功能使用教程
AI资讯
海螺AI产品FAQ自动生成功能使用教程

使用海螺AI高效生成产品FAQ需遵循三阶段流程:首先从真实用户交互中提炼5-8个高频问题样本;其次通过结构化提示词强制AI输出编号清晰的问答格式;最后必须人工校验关键业务信息,确保版本、链接及合规声明的准确性。此方法能产出精准实用的FAQ文档。

热心网友
05.23
HiDream.ai:中文AIGC创作平台与社区,基于自主可控多模态大模型
AI教程
HiDream.ai:中文AIGC创作平台与社区,基于自主可控多模态大模型

在众多AIGC工具不断涌现的当下,要找到一个功能强大、操作简单且易于上手的创作平台确实需要一番筛选。今天我们要详细介绍的“智象未来”(HiDream ai),正是一个值得你重点关注的全能型AIGC平台。它依托于自主研发的多模态大模型,构建了一个集AI创作、智能编辑与社区交流于一体的中文AIGC创作社

热心网友
05.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

企业网络安全等级保护合规指南:龙虾养殖业如何落地实施
AI资讯
企业网络安全等级保护合规指南:龙虾养殖业如何落地实施

摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双

热心网友
05.23
外贸业务员年终总结PPT制作指南 AI高效提升总结效果
AI教程
外贸业务员年终总结PPT制作指南 AI高效提升总结效果

使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支

热心网友
05.23
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报
AI教程
WPS AI一键生成年度安全工作总结PPT高效制作专业汇报

使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织

热心网友
05.23
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力
web3.0
ZEC价格暴涨520%后还能买吗 深度解析Zcash未来走势与投资潜力

Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分

热心网友
05.23
电商售后数据自动汇总分析流程与智能化方案详解
AI资讯
电商售后数据自动汇总分析流程与智能化方案详解

在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据

热心网友
05.23