首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GPT-5.2陷差评风波:OpenAI新模型被指“降智”难破局

GPT-5.2陷差评风波:OpenAI新模型被指“降智”难破局

热心网友
84
转载
2025-12-16

OpenAI最新旗舰模型上线不到一周,期待的“好评如潮”并未如期而至。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

近日,OpenAI在十周年之际发布了GPT-5.2系列模型。最新数据显示,其在GDPval等专业基准测试中超越了人类专家,成为迄今为止在“专业知识工作方面”表现最佳的模型。

据OpenAI最新披露,GPT-5.2在多个领域实现了技术突破:在GDPval测试中,其覆盖44个职业的任务表现优于顶尖专家70.9%;在SWE-bench+Pro编程测试中取得了55.6%的SOTA成绩;同时还将幻觉率较GPT-5.1降低了38%。公司CEO山姆·奥特曼称之为“许久以来最大的升级”,并透露计划于2026年1月解除应对谷歌竞争的“红色警报”。

但该模型上线后遭到大量用户吐槽,认为其从常识问答到情感交互等方面“智商不稳定”。

SimpleBench常识推理测试显示,GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7,甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对,而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单、但对机器而言充满挑战的逻辑推理任务的能力。前AWS总监理Bindu Reddy直言,“不值得从GPT-5.1升级”。

一些编程爱好者则发现,GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”,蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”,竟收到“很高兴听到这个消息”的回复;安慰失宠孩童时则机械强调“生物都会停止运作”,缺乏此前版本的亲和力和自然表达。

此外,该版本在处理连续对话时不稳定,甚至在明确选择“高级思考模式”时也会返回低质量的自动响应,令用户不得不重新调整使用方式。

还有用户表示,GPT-5.2的安全策略实施过于严格,在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

有观察人士指出,这轮差评潮背后存在几重因素。一方面,OpenAI推广时着重强调GPT-2的专业能力和基准测试成绩,但普通用户更关注日常对话、流畅性和创造性体验,两者的期望存在错位;另一方面,由于竞争加剧和内部发布节奏加快,有观点认为该版本可能发布过早,尚未充分优化在关键使用场景中的稳定性与一致性,因此用户的实际感受出现明显落差。

截至发稿,OpenAI尚未就这轮用户反馈作出公开回应,但公司在最新资料中表示,会持续改善用户体验、优化安全策略,并根据用户反馈推进后续版本的迭代。

当前,OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月,谷歌宣布Gemini月活跃用户已突破6.5亿,较7月报告的4.5亿实现大幅增长,而OpenAI披露的周活跃用户数接近8亿。

为此,奥特曼曾发布“红色代码”警报,决定暂时搁置包括Sora视频生成器在内的长期研发项目,转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率,OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。

来源:https://www.jiemian.com/article/13764773.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智元机器人通用具身机器人下线;接入抖音电商推AI购物
科技数码
智元机器人通用具身机器人下线;接入抖音电商推AI购物

特斯拉:TERAFAB项目正式发布,预计将实现每年超1太瓦算力产出3月30日,@TeslaAI 发文称,TERAFAB项目正式发布,预计将实现每年超过1太瓦(1TW)的算力产出。TERAFAB将为特

热心网友
04.01
智元机器人下线首万台,人形量产时代来临?
科技数码
智元机器人下线首万台,人形量产时代来临?

3月30日,智元机器人宣布第1万台通用具身机器人远征A3在上海正式下线。智元机器人联合创始人、总裁兼CTO彭志辉在接受等媒体采访时表示,下线1万台,意味着智元的本体制造能力,已经完成了从最早的“手工

热心网友
03.31
xAI创始团队仅剩马斯克,11名联合创始人全部离职
科技数码
xAI创始团队仅剩马斯克,11名联合创始人全部离职

世界首富马斯克创办的人工智能公司xAI创始团队成员已全部出走。最新消息显示,xAI创始团队中的最后一名联合创始人Ross Nordeen已在上周五离职。Nordeen为马斯克核心运营助手,其离职发生

热心网友
03.31
内存价格暴跌:16G内存单日跌价超百元,持续数月的暴涨终结束
科技数码
内存价格暴跌:16G内存单日跌价超百元,持续数月的暴涨终结束

持续数月走高的内存价格终于迎来回落。从3月下旬,国内市场的内存条价格出现大幅下跌。主流16GB DDR5内存条从2025年12月的1000元高位跌至700元左右;32GB套装更在一个月内缩水27%,

热心网友
03.31
苹果开发Siri迎AI厂商;Meta百亿美元投资德州AI数据中心
科技数码
苹果开发Siri迎AI厂商;Meta百亿美元投资德州AI数据中心

Meta将美国得州AI数据中心投资额增至100亿美元Meta当地时间3月26日宣布,将对美国得州埃尔帕索AI数据中心的投资额增加至100亿美元,目标在该设施预计于2028年投运前达到1吉瓦容量。Me

热心网友
03.29

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《无限轮回》萌新必备小技巧
游戏攻略
《无限轮回》萌新必备小技巧

《无限轮回》新手入门指南:高效开局与核心机制解析 你是否渴望在《无限轮回》中快速成长,成为团队中可靠的伙伴?对于新手而言,正确的开局思路至关重要。切忌盲目拾取未知物品,一个不当操作——例如过早将关键法器“葫芦”交给队友——就可能打乱核心输出的成长节奏,导致团队覆灭。作为团队辅助,你的首要目标并非打出

热心网友
04.03
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠
游戏资讯
累计突破82万!《宝可梦Pokopia》Fami通销量四连冠

Fami通最新销量榜出炉:日本实体游戏软件销量数据解读(2026年3月16日-22日) 日本游戏市场每周的风向变幻,总是由那些长青的头部作品与新晋热作共同书写。根据权威媒体《Fami通》最新发布的实体销量估算数据,在2026年3月16日至3月22日这一周,市场格局呈现出清晰的趋势:任天堂Switch

热心网友
04.03
王者荣耀s43射手梯度排行
游戏攻略
王者荣耀s43射手梯度排行

王者荣耀S43赛季射手梯度排行榜单 新赛季的射手格局已基本定型,可以用一句话概括核心趋势:敖隐与蚩妩两位英雄构成双星闪耀的T0阵营,综合强度堪称断层领先。紧随其后的T1梯队中,公孙离、艾琳、孙权、元流之子(射手)等英雄各怀绝技,或凭借极致的灵活拉扯掌控战局,或依赖无解的持续输出主宰团战。而处于T2梯

热心网友
04.03
《长生:天机降世》游戏玩法介绍
游戏攻略
《长生:天机降世》游戏玩法介绍

长生:天机降世怎么玩:从入门到精通的全面攻略 《长生:天机降世》是一款深度策略卡牌手游。其核心玩法在于通过策略性的卡牌组合与角色搭配,在限定回合内,最大化自身伤害输出并在竞技排行榜上取得优势。想要玩好这款游戏,深入理解其底层机制是关键第一步。 《长生:天机降世》新手入门与高阶玩法解析: 一、游戏核心

热心网友
04.03
本来生活如何查物流信息
手机教程
本来生活如何查物流信息

在本来生活平台下单购物后,及时查询并跟踪物流信息,可以帮助我们准确掌握包裹的预计送达时间,提前做好收货安排。那么,在本来生活应该如何高效地查询快递物流状态呢?下面为您详细介绍几种常用方法。 进行网络购物之后,用户最关心的问题通常是“我的包裹现在运送到哪里了?”实时了解物流进度,不仅能减少等待期间的焦

热心网友
04.03