首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
GPT-5性能强大,却少了些惊喜

GPT-5性能强大,却少了些惊喜

热心网友
49
转载
2025-08-11

千呼万唤始出来,奥特曼终于端出来了全世界网友都心心念念的GPT-5。

不到一天的时间,OpenAI的发布推文就获得了300万阅读,3万点赞;世超的朋友圈、群聊,也全是被GPT-5刷屏的。

虽然大家伙都喊着OpenAI越来越拉了,再也不用了,但每次他们发布新模型,AI圈都得震一下,关不关注AI的都会来聊上一嘴。

果然,大家还是忘不了ChatGPT。。

所以,GPT5到底咋样?用奥特曼的话来说,这是他们做过的最智能的模型,还说在任何领域,GPT-5都达到了博士级别的水平。

但从网友的反应看,不少人都在对这个船新版本GPT发出锐评,抱怨这玩意根本就不是GPT-5,还不如grok。

Polymarket上还发起了一个叫“哪家公司在八月末拥有最顶级的AI模型”的竞猜,结果就在发布会刚开完时,谷歌和OpenAI的赔率来了个两极反转。

最搞的是,在发布会的时候,OpenAI放了张柱状图,在比较大模型写代码的准确度时,52.8%画得比69.1%还高,小学生都画不出来,这一波黑子白子都洗不了了。。

但我觉得吧,网友反应这么大,主要还是奥特曼吹得太狠了,还没发布的时候,AI圈还没震,自己就开始震上了。

该说不说,GPT-5的跑分是挺强的,在大模型竞技场LMArena上夺得了大满贯,全方位第一。

但到底好不好用,只有用户亲身体验过才知道。在体验了一圈GPT-5后,世超得出的结论是:没那么惊艳,不如叫GPT4.6。

首先,让大家最称赞的,还是GPT-5的编程能力。咱就和竞技场榜二Gemini 2.5 pro掰头一下。

首先我让它模拟了下我们高中就学过的弹性碰撞。

提示词:我是一名高中生,通过物理模拟让我理解弹性碰撞。

这家伙确实做得不错,不仅在球上把速度方向标注出来了,还能在碰撞中丝滑改变球的大小。

Gemini做得也还行,但总体感觉丝滑度上不如GPT,我一改变大小,球就卡住了,让我们强迫症非常不适。

接着,我掏出了我最爱的多米诺骨牌,这玩意我试过很多AI,基本都很难做出来。。

首先是GPT-5,这牌做得还真有点东西,非常的有动感。。

提示词:模拟多米诺骨牌的物理过程,左键放牌,右键倒牌。

Gemini这边呢,就理解得不是很好了,虽然也能倒吧,就是给哥们把牌挂到天上去了。。

当然这只是几个好的案例,也有比较搞笑的时候。。

我简单描述了下需求,让它生成了一个开飞船的游戏,没别的,主要是想开飞机。

它写出来的,只能说很一般,尾焰和动力根本不是一个方向,我直接出门即坠机。。

除了这些,其他更新基本都是对现有能力的进一步优化。OpenAI这次的更新似乎就是朝着“节能高效”这个方向去的,完全不同于之前GPT3.5到4那样飞跃式的更新。

根据 OpenAI 官方博客的介绍,GPT-5 在思考和输出上都更加高效。它在保证准确率的同时,思考时间更短,输出的 Token 数量也减少了 50% 到 80%。

而且,GPT-5 对困扰大伙已久的幻觉问题也出了狠手,它的事实错误率比 GPT-4o 低了 45%,思考时的事实错误率更是比 GPT-4o 低了约 80%。

也就是说,GPT-5 变得更加诚实了。它清楚自己的能力边界,遇到不会的问题会直接说“不会”,做不到的事情会直说“做不到”,而不是像以前一样一本正经地胡说八道。

当然,对于俺们编辑来说,模型最重要的应该是写文章的能力,毕竟能帮我们上班(当然不是)。

但我体验了一圈下来,GPT-5给我的感觉,就像一个靠灵性吃饭的诗人,突然间失去了灵感。。

它在逻辑、推理、数学、编程这些需要严密思维的领域,达到了前所未有的高度,但文本创作这块,它却显得有些力不从心。

我先让GPT-5,撰写了一段夸自己的文字,说是得有生活气息,不能太尬。

结果我看了下,给我写了首诗,略微肉麻。。

接着,我们来看看Gemini怎么夸自己。(因为我让Gemini夸GPT5,它拒绝了)

虽然说文无第一,但我还是感觉Gemini写的,AI味道更淡一些。

如果要量化的话,你数一下两段话破折号和引号的数量,你就懂了。

虽然发布会上说,GPT-5大幅减少了幻觉。但结果是它的文本变得过于保守和安全,那种信手拈来的奇妙比喻,那种让人拍案叫绝的独特视角,好像少了一些。

此外,网上有很多人控诉,在发布GPT-5的同时,OpenAI还强行删除了5之前的其他模型。。

现在,你打开GPT的界面,在模型选择的下拉菜单里,你基本只能看到GPT-5选项。

只能说,这操作确实有点离谱。毕竟国内的模型都能让我们决定是否“深度思考”,有时候需要又快又准,有时候也需要多而广,现在OpenAI却直接替用户做主,把所有选择权都收回去了。

当然也有些人说好,毕竟有些人是选择困难症,就喜欢别人帮他做决定,这就仁者见仁了。

但世超发现,ChatGPT的Pro会员还是能使用之前的旧模型的,属于是有点区别对待了。。(如果你希望用回 GPT-4o/4.5,在头像-设置里勾选显示传统模型,就可以切回传统模型了)

不仅如此,官方的偷偷降智行为,也不是很厚道。。

就那个奥特曼在发布会上展示的做音乐的例子,如果你的GPT-5被降智了,你是复刻不出来的,感兴趣的差友可以去试试。。

总的来说,比起基础能力的巨大提升,这次 OpenAI 的更新更值得关注的是其“实用第一”的策略。

一方面,这可能意味着大模型在基座性能升级上遇到了一定的瓶颈。另一方面,这种方向的调整确实有意义。毕竟,在过去几年里,大模型为了追求性能的狂野升级,导致幻觉、成本等 AI 常见问题一直被放在次要位置。

如今,随着 OpenAI 的周活跃用户已经达到 7 亿,在性能升级有限的情况下,是时候好好打磨一下产品体验了。

但大伙还是需要一些期待的,毕竟很久没有过一个开天辟地的新模型了。

所以下一个被寄予厚望的模型是谁呢?

就决定是你们了,DeepSeek R2 和 Gemini 3.0!

来源:https://news.mydrivers.com/1/1067/1067236.htm
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

商汤绝影3B激活参数性能超越GPT与Opus
AI资讯
商汤绝影3B激活参数性能超越GPT与Opus

车机端侧大模型的困境,业内讨论已久:复杂任务需要深度推理,而深度推理又依赖庞大的模型参数。参数规模上不去,智能水平就受限;可要把动辄数百亿参数的云端模型塞进车机,算力和功耗又成了难以逾越的障碍。这个死循环,似乎让真正的“智能座舱”始终隔着一层纱。 如今,这个僵局被打破了。商汤绝影刚刚发布了端侧多模态

热心网友
05.18
OpenAI融资1220亿美元:史上最大规模创投交易完成
科技数码
OpenAI融资1220亿美元:史上最大规模创投交易完成

4月1日消息,据IT之家援引外媒报道,OpenAI 已完成一笔融资交易,以 8520 亿美元(现汇率约合 5 9 万亿元人民币)的估值募资了 1220 亿美元(现汇率约合 8442 89 亿元人民币

热心网友
04.01
GPT-5.4正式发布:OpenAI最强模型的核心能力解析
科技数码
GPT-5.4正式发布:OpenAI最强模型的核心能力解析

3月6日消息,OpenAI 今日正式发布了 GPT-5 4 系列模型,包括面向 ChatGPT 和 API 的 GPT-5 4 Thinking 版本,以及面向复杂任务的 GPT-5 4 Pro 版

热心网友
03.06
比亚迪刀片电池二代发布,GPT-5.4上线与2026胡润富豪榜前瞻|Do早报
科技数码
比亚迪刀片电池二代发布,GPT-5.4上线与2026胡润富豪榜前瞻|Do早报

Hello,大家早上好,又是元气满满的一天,先来浏览新鲜的早报吧~【比亚迪二代刀片电池发布】比亚迪第二代刀片电池不仅实现“闪充”,从 10% 充到 70% 仅需 5 分钟,更在-20℃ 极寒环境下

热心网友
03.06
OpenAI发布GPT-5.3-Codex-Spark:提速主攻的首个模型来了
AI资讯
OpenAI发布GPT-5.3-Codex-Spark:提速主攻的首个模型来了

这是GPT-5 3-Codex的一个轻量级版本,也是OpenAI首个专为实时编程设计的模型。 OpenAI刚刚发布了GPT-5 3-Codex-Spark。这是GPT-5 3-Codex的一个轻量级

热心网友
02.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23