扣子大模型竞技场，谁与争锋_AI热点日报

扣子大模型竞技场，谁与争锋

类型：热点整理2026-05-30

字节跳动近期在AI领域频频发力。继悄然接入多款第三方国产大模型后，旗下智能体开发平台“扣子”（Coze）于今日正式上线“竞技场”功能，旨在让各大模型正面交锋、一较高下，为用户提供客观的模型能力对比参考。截至今天（2024年6月12日），扣子平台所支持的第三方国产大模型阵容如下：豆包·Function

字节跳动近期在AI领域频频发力。继悄然接入多款第三方国产大模型后，旗下智能体开发平台“扣子”（Coze）于今日正式上线“竞技场”功能，旨在让各大模型正面交锋、一较高下，为用户提供客观的模型能力对比参考。

截至今天（2024年6月12日），扣子平台所支持的第三方国产大模型阵容如下：

豆包·Function call模型
功能特点：具备Function calling能力（提供更精确、稳定的工具调用支持）

通义千问-Max
功能特点：支持Function calling能力；输入上下文最长可达8192个Tokens（约12288个中文字符）

GLM-4
功能特点：支持Function calling能力；输入上下文最长可达120000个Tokens（约180000个中文字符）

MiniMax 6.5s
功能特点：支持Function calling能力；输入上下文最长可达250880个Tokens（约376320个中文字符）

Moonshot（32K）
功能特点：支持Function calling能力；输入上下文最长可达32768个Tokens（约49152个中文字符）

今天下午，扣子平台正式上线了“模型广场”功能，模型间的“厮杀”由此拉开序幕。竞技场提供两种对战玩法：随机对战与选择模型对战。

对战模式	说明
指定Bot对战	指定特定Bot进行模型对比，适用于评估模型在特定细分领域的文本生成、技能调用及知识应用等能力。
随机Bot对战	系统随机选取一个Bot进行模型对战，适用于评测模型在任意业务场景下的文本生成、技能调用与知识应用等综合能力。
纯模型对战	不指定任何Bot，系统随机选择两个模型直接对决。模型回答不受编排、工作流等配置的影响，可用于全面评测模型自身的文本生成等核心能力。

选择“随机对战”模式，点击开始。坦白说，在开战之前你完全无法预知对阵双方的身份——就像蒙面的对手，各自回答同一个问题。究竟哪一方的回答更能赢得观战者的青睐？我们只能拭目以待。

实际测试一局后，GLM-4拿下了本场较量。MiniMax在角色扮演场景中的表现可圈可点，但GLM-4显然更胜一筹。

当然，竞技场还支持针对推理能力、编码能力、任务解决、生成创作、角色扮演等维度的专项PK。

信息分析与处理、知识应用、推理能力

编码能力、任务解决、生成创作

角色创作

纯模型对战环节详解

扣子平台的竞赛规则，核心在于公平。系统会随机抽取两个匿名模型进行成对比较，采用均匀采样与分流机制以减少外部干扰。对战时，模型的生成多样性设置为平衡模式，上下文轮数与最大回复长度根据Bot的设置或模型的上限确定。

在纯模型对战模式下，上下文轮数固定为3轮，最大回复长度为2k，输出格式为纯文本。用户在对战过程中不可中途更换Bot，但可以随时重新开始新的一局。为确保投票公正，对话中禁止询问模型身份，投票后也不支持改票。用户可发起多轮会话，从多个角度考察哪个模型表现更优，只有在获得至少一轮完整回复后方可投票。

投票结果直接影响模型的评分，因此每一票都需认真对待。任何试图暴露模型身份的行为，都将导致该票作废，且不影响模型评分。

简单来说，这套机制本质上是一种主观评测——衡量模型输出与人类偏好或期望的匹配程度。你可以通过多轮会话提出不同问题，尽可能全面地覆盖模型的能力边界。评测问题既可以是答案固定的客观题，也可以是答案不固定的开放性、半开放性问题，从而综合评估模型的真实实力。

采用的评测方法论

为准确、全面、系统化地评估大语言模型的能力，并向Bot开发者提供具有参考价值的排行榜，扣子参考了Chatbot Arena的评分机制，采用Bradley-Terry模型进行满意度比较与全方位评测。

Bradley-Terry模型类似于Elo评分系统，是一个成熟的统计模型，适用于分析成对比较数据。它最早广泛应用于体育比赛分析——假设每个参赛者都有一个固定的实力参数，比赛结果的概率由这些参数决定，通过Logistic函数计算一支队伍相对于另一支队伍的胜率，从而更精准地估算模型之间的相对实力。

（评测机制详情可参考扣子官方文档：https://www.coze.cn/docs/guides/model_compete_overview）

来源：https://www.53ai.com/news/LargeLanguageModel/2024061218605.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

扣子大模型竞技场，谁与争锋

相关热点

延伸阅读