游乐游手机版
首页/AI热点日报/热点详情

国产AI大模型扣子广场PK一个提问见高下

类型:热点整理2026-05-30
以“国产GPTs”出名的扣子,这次憋了个新招——让大模型们当场“打一架”。6月12日,字节跳动旗下的AI应用开发平台“扣子”(Coze国内版)悄悄上线了一个叫“模型广场”的功能。这个平台原本是给用户快速搭建AI Bot用的,无论你会不会写代码,都能在扣子上搓出个聊天机器人,一键丢到飞书、微信上去。而


一个提问高下立见?国产AI大模型冲上扣子广场PK

以“国产GPTs”出名的扣子,这次憋了个新招——让大模型们当场“打一架”。

6月12日,字节跳动旗下的AI应用开发平台“扣子”(Coze国内版)悄悄上线了一个叫“模型广场”的功能。这个平台原本是给用户快速搭建AI Bot用的,无论你会不会写代码,都能在扣子上搓出个聊天机器人,一键丢到飞书、微信上去。而新功能模型广场,玩法很简单:让两个大语言模型实时PK,用户当裁判,看谁的回答更靠谱,帮自己挑出最顺手的那个。

目前扣子已经接入了豆包、通义千问、MiniMax、Moonshot、百川智能、智谱等国内主流大模型。换句话说,这是字节和多家大模型厂商的一次强强联手。

那么问题来了:哪款大模型最适合你的AI应用?创作者在打造Bot时怎么选?自定义主题的Bot到底能玩出什么花样?我们第一时间上手实测了一轮。

超低门槛搭建Bot,让大模型匿名PK

国内大模型到底谁更厉害?遇到具体任务时该选谁?扣子模型广场给了一个快速验证的方法。具体来说,它提供了三种对战模式:指定Bot对战、随机Bot对战、纯模型对战。无论哪种模式,系统都会先匹配两个匿名大模型,然后你提问,它们实时生成答案。你根据回答质量投票,谁强谁弱一目了然。

先从最基础的模型能力测起。假如我要搭一个“友好语气转换器(阴阳版)”,哪个大模型能既礼貌又不冒犯地阴阳怪气?直接让模型“打一架”,就能看出它们在细分需求上的表现差异。

在模型广场点击“纯模型对战”,进入对决页面,两个匿名模型已经就位。输入Bot角色设定,一键发给两个模型,内容如下:

“你是一个能将各种情绪状态演绎得淋漓尽致,令人又爱又恨的阴阳怪气大师,可以通过极其生动且夸张的方式展现出丰富多样的不同网络聊天语气,给用户带来独特的、充满明嘲暗讽的体验……”

两个模型实时响应,最快的一个只花了4.9秒。基于回答质量和响应时长,这一票投给了大模型A。投票完成后,揭晓答案:获胜的模型A其实是豆包。点开还能看到更多模型参数。如果还想看看其他模型怎么“阴阳怪气”,可以点“重开一轮”,系统会重新匹配两个新模型。

多轮测试下来,我们发现豆包和Moonshot的表现不相上下——豆包回答简单毒舌,Moonshot配合表情后把“暗讽”拿捏得更到位。考虑到我希望聊天机器人带上emoji,最终更青睐活泼一点的Moonshot。

需要说明的是,这里的投票完全基于个人主观喜好,与其说哪家模型更强,不如说哪家更适合你的场景。目前市面上也有权威评测,比如LMSYS的模型竞技场,让全球用户自由评测大模型。扣子模型广场的功能与之类似。

对于开发者来说,底层模型的选择直接决定AI Bot的能力上限。但很多人创建Bot时看不懂复杂的榜单数据,甚至国产大模型经常“轮流当第一”。现在通过纯模型对战,以文本生成硬实力PK,小白用户也能直观地做出选择。

此外,还可以在模型广场选择感兴趣的Bot开启对战。和GPTs商店类似,入围的Bot都是官方精选推荐的。比如选择“奇遇旅行家”Bot来规划出行,把“从上海出发到阿勒泰,帮我找便宜机票并制定行程”这个问题同时发给两个模型。不到15秒,两个匿名模型给出完全不同的方案。对于需要Plan B的出行党来说,这大大缩短了规划时间。

换句话说,同一个问题可以同时投喂给两个大模型,短时间内获得更多回复,提高信息获取效率。而且在一个平台上就能掌握各大模型的最新能力,扣子实现了模型Bot的聚合。

验证模型再叠技能,AI还能怎么玩

注意,模型广场评估的只是大模型本身在文本生成等方面的能力,不受编排、工作流等配置的影响。但要想打造一个真正出众的Bot,还需要给AI叠加额外能力——比如调用表情包插件,或者创作完整的工作流,和大模型结合完成更复杂的任务。

在扣子Bot商店里,不少网友已经玩出了花样。AI最大的魅力,大概就在于你压根没想到这些东西还能这么用。6月12日,扣子还和Intel联合推出了“Coze AI Factory”主题Bot征集活动,涵盖图文创作、实用工具、互动创意等赛道。网友们靠调用插件、增加工作流,调教出了形形色色的角色,比如“单人剧本杀”“本命粽子”“Emoji翻译器”等等。

这些有趣的Bot会吸引更多开发者上手尝试,从中寻找灵感。在Bot商店里,你可以查看任意Bot的提示词,甚至在自己的空间里复刻一个相似的,再替换成更心仪的大语言模型。零基础就能开发一款契合自己的AI Bot,借助模型广场还能在创建时选到偏好模型。这样一来,人人都能灵活配置生成不同的Bot,低成本实现突如其来的创意。

字节AI新王牌,想做大模型风向标?

随着大模型技术不断演进,国内大厂几乎都瞄准了AI原生应用平台。类GPTs的产品远不止扣子:百度上线了文心一言智能体平台,阿里云布局百炼大模型平台,腾讯的“元器”也在灰度测试。许多人认为,具有专业能力的智能体能够撬动大模型商业化。但如何脱颖而出、做出差异化,是共同面对的难题。

目前来看,扣子靠模型竞技场迈出了第一步——挖掘大模型技术潜力,汇聚开发者甚至非开发者。模型广场意味着字节联动阿里、百川智能、月之暗面等厂商,让用户能快速基于多种大模型创建应用。扣子的底层不再局限于自研的豆包,逐渐走向开放,吸引更多开发者。对于大厂来说,开发者生态就像“蓄水池”,繁荣的生态和稳固的底层技术相辅相成,规模化的开发者聚合效应能进一步提升大模型能力。

继此前推出9个豆包大模型全家桶、打响价格战后,字节正在围绕AI寻找应用落地场景,触达更多用户。以扣子、豆包为基础,字节正尝试搭建一个覆盖各领域的AI应用生态,进一步对B端业务发起攻势。火山引擎总裁谭待此前接受采访时表示,应用生态的构建不是一天两天就能形成的,反而是一堆人的群体智慧。扣子必须要构建低代码生态,让更多人用低门槛做更多事情,才能形成AI时代的创新。

这或许也在暗示,扣子选择上线模型广场的原因,是鼓励更多大模型合作,收集真实的应用场景数据,为优化模型提供参考。正如很多业内人士提到的,AI的价值应该体现在它如何帮助人们解决问题、提高效率上,而不仅仅是技术层面的“最强”。

来源:https://www.53ai.com/news/LargeLanguageModel/2024061947190.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。