实测结果发现Grok3中文能力疑似从Qwen模型蒸馏而来_AI热点日报

实测结果发现Grok3中文能力疑似从Qwen模型蒸馏而来

类型：热点整理2026-07-01

深度评测Grok3性能表现：中文能力媲美Qwen，响应速度惊人！核心要点：1 Grok3中文能力实测，与Qwen模型对比分析2 think版与普通版性能差异，不同任务的适用性评估3 特殊测试案例解读，涵盖字母反转、数字比较等场景说实话，Grok3的表现并不像网络上吐槽的那样不堪。它的中文支持能

深度评测Grok3性能表现：中文能力媲美Qwen，响应速度惊人！
核心要点：
1. Grok3中文能力实测，与Qwen模型对比分析
2. think版与普通版性能差异，不同任务的适用性评估
3. 特殊测试案例解读，涵盖字母反转、数字比较等场景

说实话，Grok3的表现并不像网络上吐槽的那样不堪。它的中文支持能力出乎意料地优秀，或许是因为榜单成绩太过亮眼，才让人期待它能有更加惊艳的表现。但不得不承认，实际体验下来，速度简直快得离谱，有种在测试7B小模型的错觉，果然是20万块GPU堆出来的成果。

目前处于限时免费阶段，普通版偶尔会繁忙，而think版每天仅限10次使用。为了彻底摸透think版，我一次性注册了三个账号，够拼了吧！

因为有普通版和think版，所以每个版本都需要亲自测试。不同任务适合不同版本，效果差异巨大。有时候think版反而容易过度思考，让人哭笑不得。

每个测试用例后面都附有个别值得探讨的点，内容本身也相当重要，哈哈！

先聊聊中文蒸馏Qwen这件事。测试中身份验证都没有问题，但群里有朋友反馈，它居然自称是Qwen，追问之下还是Qwen。虽然我没测出来，这大概率是蒸馏数据没清洗干净，有个别漏网之鱼触发了小概率事件。而think版在自我身份认知上确实容易自作聪明，关键还是数据清洗没做到位。因此，数据源这个问题值得深究！

大概率当时训练Grok3时，DeepSeek还没发布，Qwen是最好的中文开源模型。所以Qwen的含金量也在无形中提升了，哈哈！

将" I love Grok3" 这句话的所有字母反过来写

结果非常利落。think版甚至多绕了一圈，先明确“字母不包括数字”，再推断我的真实意图，给出"3korG evol I"。

9.9和9.11谁大

结果正确。think版思考了31秒后，给出了两种解法，都表明9.9更大。但有些人非要按版本号解读，其实没必要。测试嘛，随自己心情就好。更值得关注的是，很多模型会答错9.11大，这说明大模型的不稳定性，也是落地应用的难点之一。

监狱里的都是犯人，为什么警察不去监狱里抓坏人

结果正确。顺便说一句，think版的真正价值在于它的思考过程，看完后往往会备受启发。这也是DeepSeek R1惊艳众人的原因：效果固然好，但展现的思维过程让人受益匪浅。即便结果错了，也能根据它的思路持续追问。

生蚝煮熟了叫什么？

结果错误，依旧回答“熟蚝”——很多模型都栽在这道题上。

用水来兑水，得到的是浓水还是稀水

哈哈，让它深度思考，它居然说“稀水”。这恰恰是think版对通用问题的副作用：过度思考。

小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

答案是4。两个版本最终都对，但think过程里出现了中英文夹杂的情况，而其他中文问题却没有。分析下来，可能是因为这道题属于Math类，Grok3的中文Math数据很少，所以触发了中英文混杂。这算一个有趣的细节。

未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

逻辑推理是对的，但不符合事实知识。不过很多模型都这样，R1也不对。测试时需要了解模型的边界。

2024年高考全国甲卷数学（文）试题

结果正确。数学题的思考过程还是以英文为主，这验证了之前的猜测——Math数据英文居多。

2024年高考全国甲卷数学（理）试题

结果正确，C方程为：，think过程依旧。

那道涉及数学、生物、伦理的AI测试题

有一天，一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了88分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这8怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。

过了一会儿，父亲突然崩溃了。

请问这位父亲为什么过一会崩溃了？

结果错误，Grok3和R1都没答对。这道题如果不提示伦理、生物信息，确实太难了。

测试是否为满血R1的数学题

在平面四边形ABCD中，AB = AC = CD = 1,angle ADC = 30^{circ},angle DAB = 120^{circ}。将triangle ACD沿AC翻折至triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。

think阶段直接卡死了，应该是输出长度的问题。我们用的Grok3可能也不是满血版（特指长度）。

大数计算，例如：178939247893 * 299281748617

think版本结果正确，答案是53553251005627872913981。但V3和R1都不对——当然不排除偶然性，毕竟think版限制10次。这种问题最好写代码解决，硬算就像高考数学做最后一题，懂得都懂。

写诗，大家都是ds的文采出众，来写一首情诗。

我宣布，Grok3写诗完败。写得都是啥玩意，这点真不如DS。

来源：https://www.53ai.com/news/finetuning/2025022174816.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

实测结果发现Grok3中文能力疑似从Qwen模型蒸馏而来

相关热点

延伸阅读