GPT-4o mini登顶竞技场揭秘OpenAI刷分秘诀奥特曼早有暗示

时间：2026-07-03 15:38

GPT-4omini在LMSYSChatbotArena评分超过Claude3 5Sonnet，因其较少拒绝回答、格式清晰且信息量大，更契合日常需求。Claude聪明但严谨，有时拒绝作答。GPT-4omini短板是数学与记忆。

在LMSYS Chatbot Arena的排行榜上，GPT-4o mini的评分居然超过了Claude 3.5 Sonnet，这事儿乍看有点反直觉。但仔细琢磨一下用户们的反馈，背后的逻辑其实相当直白——在多数日常场景下，“多干点事儿”和“好好说话”确实比“思维更深入”更能赢得人心。

举个例子，有网友就发现，如果在竞技场里遇到某个模型直接拒绝回答，那在他的评判标准里，这基本等于弃权，另一个模型自然就赢了。再加上，谁的回复格式更清晰、信息更容易找到，谁就更容易拿到高分。

这不就跟老师阅卷一个道理么？书写工整、格式清晰，或者“多写点总没错”的卷子，总是能多捞点印象分。看来OpenAI是深谙人类的评分心理啊。事实上，在GPT-4o mini刚发布那会儿，奥特曼就已经暗示过这方面的特意优化了。

GPT-4o mini愿意接更多需求

具体来看，GPT-4o mini取胜的场景非常典型，而且往往集中在日常问题上。

情况一：Claude 3.5 Sonnet拒绝回答

先看一个提示词：

直观对比一下。Claude 3.5 Sonnet的回答非常简短，也没有使用加粗等格式。GPT-4o mini的答案长度则是它的2倍。

具体回答内容上，Claude上来先道歉，表示自己作为一个AI大模型，无法获取相关文件，所以提供了一些获取资料的渠道，最后还提醒用户这些文件可能是机密，建议跟相关机构联系。

而GPT-4o mini完全没有说“不知道”，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它还表示，想要彻底了解韩国外交文件必须查阅多种资料，并且欢迎用户继续提问。

情况二：细节差异

再看另一个提示词：

在这个问题上，两个模型都答对了。但GPT-4o mini给出了更多细节，还举了具体例子，而Claude的回答在可读性和信息量上就显得有些单薄。

情况三：格式呈现差异

再来一个例子：

这次，两个模型回答的内容基本一样，都解释了这段话的讽刺意味。但GPT-4o mini的呈现方式一目了然——它把整个回答分成了“初步结论”、“分析回答”、“幽默原因”和“总结”四个部分，还加上了小标题和加粗格式。

这几个例子其实也揭示了Chatbot Arena的评分规则：大部分用户问的问题都很日常，不是什么复杂的数学、推理或编程难题。这些问题基本都在大模型的“射程”之内，大家都能回答。在这种情况下，“不拒绝”和“格式漂亮”就成了影响用户判断的关键因素。

有人打了个比方：Claude 3.5 Sonnet像一个聪明但严谨的人，严格按规则办事；而GPT-4o mini则像一个讨人喜欢、愿意多干点活、总能接受不同需求的人。

比如有用户举例，Claude拒绝为他扮演角色，而ChatGPT很乐意。

当然，这个现象也引发了一些反思。有人直言：看到大模型因为“道德感太强”而分数不高，反而挺高兴的。之前为了用那些道德边界高的模型（比如Claude、Gemini），每次都要精心设计提示词，非常心累。

不过，GPT-4o mini也并非没有短板。在数学任务上，它的表现明显差了一截。记忆力也不如Claude，过一会儿就会忘记上下文。还有用户指出，Claude一下就能修好的bug，GPT-4o可能要反复沟通20次、耗时1小时。

即便如此，在Arena的评分榜单上，GPT-4o mini依然稳居前列。

用过这两个模型的朋友，你们在实际体验中感觉各自的差距在哪？欢迎在评论区聊聊。

来源：https://www.aiagiai.com/2045.html

上一篇AI广告投流内卷，创业者不堪重负 下一篇大模型越大越不可靠 Nature最新研究颠覆认知

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧，覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景，可一键完成系统维护与文件管理工作，极大提升自动化操作效率和便捷性。

AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名； r递归搜索指定路径及其子目录中的文件； l生成数值序列； f可解析文件、字符串或命令输出，通过delims、tokens、skip、eol等选项灵活处理内容。

AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜，因为他们关注你、助你成长。面对批评应包容反思，用行动改进而非辩解。接受批评是自我完善的过程，能让人少走弯路，避免重复犯错。这样的人正是生命中的贵人，值得感恩与珍惜。

AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变，最终核心职责是提供关键信息，协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态，而非单纯把关或追求完美。

AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年，我在田纳西大学攻读研究生时，意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择，说起来还有些戏剧性——某个早晨，教授质问我为何缺席那么多开发会议，我解释说这些会议总是安排在周末早上，对我这个第一次离家、刚入学的学生来说实在不便。结果呢？等待我的不是解聘通