阿里千问公测遇挫：9.9与9.11版本体验对比与AI进阶思考_AI热点日报

阿里千问公测遇挫：9.9与9.11版本体验对比与AI进阶思考

类型：热点整理2025-11-18

一道看似简单的数学题——比较9 9和9 11的大小，竟成为检验人工智能模型能力的试金石。近日，阿里巴巴最新公测的千问APP在回答这一问题时出现失误，引发行业对AI技术局限性的讨论。该事件不仅暴露了当

一道看似简单的数学题——比较9.9和9.11的大小，竟成为检验人工智能模型能力的试金石。近期，阿里巴巴最新公测的千问APP在回答这一问题时出现失误，引发了行业对AI技术局限性的探讨。该事件不仅暴露了当前大模型在基础运算中的潜在漏洞，更折射出AI从实验室走向实际应用面临的挑战。

测试过程中，千问APP首次回答称"9.11更大"，随后在问题拆解阶段又正确指出"9.9的十分位是9，9.11的十分位是1，因此9.9更大"。面对这种自相矛盾的回应，AI模型解释称首次结论属于"阶段性错误"，并归因于"数字长度错觉"——三位数的9.11在视觉上可能引发认知偏差。经过自我溯因后，该模型在第三次提问中给出了正确答案。

这道经典算术题最早由艾伦研究机构成员林奕辰发现。他在测试ChatGPT-4o时发现，该模型竟认为13.11大于13.8。随后Scale AI工程师莱利·古德赛德变换问法，向多个主流模型发起挑战，结果包括ChatGPT-4o、谷歌Gemini Advanced等在内的多个大模型集体"翻车"。这一现象在AI技术圈引发广泛关注，相关测试截图在社交平台获得数百万浏览量。

行业专家指出，大模型本质上是基于语言数据训练的统计模型，其核心能力在于捕捉语言模式而非理解数学规则。这种技术路径导致AI在处理需要严格逻辑推理的任务时表现不稳定。某AI技术从业者表示："语言模型擅长处理模糊的自然语言，但面对精确的数学运算时，其统计学习机制反而成为短板。"

尽管存在基础运算缺陷，中国大模型在全球市场的竞争力不容小觑。以阿里巴巴Qwen系列为例，该模型累计下载量已突破6亿次，在技术积累和生态布局方面形成独特优势。爱彼迎CEO布莱恩·切斯基公开表示，公司已将Qwen模型深度整合到运营体系，称赞其"速度快、成本低"。这种实际应用场景的验证，为中国AI模型提供了差异化竞争路径。

阿里巴巴日前宣布全面进军消费级AI市场，计划将千问APP与地图、外卖、票务等20余个生活场景深度融合。基于开源模型Qwen3打造的"千问"项目，被管理层定位为"AI时代的战略级入口"。通过整合海外影响力，阿里巴巴正与OpenAI等国际巨头展开直接竞争。这种"技术输出+场景落地"的双轮驱动模式，或将重塑全球AI产业格局。

值得关注的是，千问APP的此次失误恰逢其全球推广关键期。测试结果显示，该模型在复杂场景理解、多模态交互等方面表现突出，但在基础运算等"简单任务"上仍需优化。这种"高阶能力突出、基础能力薄弱"的反差现象，为AI技术发展路径提供了新的研究样本。如何平衡模型复杂性与可靠性，将成为行业下一阶段的重要课题。

来源：https://www.itbear.com.cn/html/2025-11/1021681.html

延伸阅读

补充最近整理过的热点入口。

阿里千问公测遇挫：9.9与9.11版本体验对比与AI进阶思考

相关热点

延伸阅读