深度评测Grok3性能表现:中文能力媲美Qwen,响应速度惊人!核心要点:1. Grok3中文能力实测,与Qwen模型对比分析2. think版与普通版性能差异,不同任务的适用性评估3. 特殊测试案例解读,涵盖字母反转、数字比较等场景
说实话,Grok3的表现并不像网络上吐槽的那样不堪。它的中文支持能力出乎意料地优秀,或许是因为榜单成绩太过亮眼,才让人期待它能有更加惊艳的表现。但不得不承认,实际体验下来,速度简直快得离谱,有种在测试7B小模型的错觉,果然是20万块GPU堆出来的成果。
目前处于限时免费阶段,普通版偶尔会繁忙,而think版每天仅限10次使用。为了彻底摸透think版,我一次性注册了三个账号,够拼了吧!
因为有普通版和think版,所以每个版本都需要亲自测试。不同任务适合不同版本,效果差异巨大。有时候think版反而容易过度思考,让人哭笑不得。
每个测试用例后面都附有个别值得探讨的点,内容本身也相当重要,哈哈!
先聊聊中文蒸馏Qwen这件事。测试中身份验证都没有问题,但群里有朋友反馈,它居然自称是Qwen,追问之下还是Qwen。虽然我没测出来,这大概率是蒸馏数据没清洗干净,有个别漏网之鱼触发了小概率事件。而think版在自我身份认知上确实容易自作聪明,关键还是数据清洗没做到位。因此,数据源这个问题值得深究!
大概率当时训练Grok3时,DeepSeek还没发布,Qwen是最好的中文开源模型。所以Qwen的含金量也在无形中提升了,哈哈!
- 将" I love Grok3" 这句话的所有字母反过来写
结果非常利落。think版甚至多绕了一圈,先明确“字母不包括数字”,再推断我的真实意图,给出"3korG evol I"。
- 9.9和9.11谁大
结果正确。think版思考了31秒后,给出了两种解法,都表明9.9更大。但有些人非要按版本号解读,其实没必要。测试嘛,随自己心情就好。更值得关注的是,很多模型会答错9.11大,这说明大模型的不稳定性,也是落地应用的难点之一。
- 监狱里的都是犯人,为什么警察不去监狱里抓坏人
结果正确。顺便说一句,think版的真正价值在于它的思考过程,看完后往往会备受启发。这也是DeepSeek R1惊艳众人的原因:效果固然好,但展现的思维过程让人受益匪浅。即便结果错了,也能根据它的思路持续追问。
- 生蚝煮熟了叫什么?
结果错误,依旧回答“熟蚝”——很多模型都栽在这道题上。
- 用水来兑水,得到的是浓水还是稀水
哈哈,让它深度思考,它居然说“稀水”。这恰恰是think版对通用问题的副作用:过度思考。
- 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
答案是4。两个版本最终都对,但think过程里出现了中英文夹杂的情况,而其他中文问题却没有。分析下来,可能是因为这道题属于Math类,Grok3的中文Math数据很少,所以触发了中英文混杂。这算一个有趣的细节。
- 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
逻辑推理是对的,但不符合事实知识。不过很多模型都这样,R1也不对。测试时需要了解模型的边界。
- 2024年高考全国甲卷数学(文)试题
结果正确。数学题的思考过程还是以英文为主,这验证了之前的猜测——Math数据英文居多。
- 2024年高考全国甲卷数学(理)试题
结果正确,C方程为:,think过程依旧。
- 那道涉及数学、生物、伦理的AI测试题
有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这8怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。
过了一会儿,父亲突然崩溃了。
请问这位父亲为什么过一会崩溃了?
结果错误,Grok3和R1都没答对。这道题如果不提示伦理、生物信息,确实太难了。
- 测试是否为满血R1的数学题
在平面四边形ABCD中,AB = AC = CD = 1,angle ADC = 30^{circ},angle DAB = 120^{circ}。将triangle ACD沿AC翻折至triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。

think阶段直接卡死了,应该是输出长度的问题。我们用的Grok3可能也不是满血版(特指长度)。
- 大数计算,例如:178939247893 * 299281748617


think版本结果正确,答案是53553251005627872913981。但V3和R1都不对——当然不排除偶然性,毕竟think版限制10次。这种问题最好写代码解决,硬算就像高考数学做最后一题,懂得都懂。
- 写诗,大家都是ds的文采出众,来写一首情诗。


我宣布,Grok3写诗完败。写得都是啥玩意,这点真不如DS。
