首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌与OpenAI让AI玩《精灵宝可梦》,实测GPT和Gemini谁更强

谷歌与OpenAI让AI玩《精灵宝可梦》,实测GPT和Gemini谁更强

热心网友
18
转载
2026-01-25

1月25日消息,要想准确评估AI的智能程度与能力,眼下涌现了各种各样的跑分测试和评测方法。不过,一种相对小众的测试方式,最近也在AI领域引发了不少关注。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

谷歌、OpenAI争相让旗下AI玩经典《精灵宝可梦》游戏,衡量GPT、Gemini的真正实力

目前,谷歌、OpenAI和Anthropic等AI巨头,正让自家的大语言模型挑战《精灵宝可梦》经典系列游戏,并以此作为衡量其AI性能表现的新标尺。

Anthropic公司AI部门负责人戴维·赫什对此给出了他的解读:“比起《Pong》这类规则简单的游戏,《精灵宝可梦》之所以更能吸引机器学习社区的关注,是因为它的复杂性和开放性更强。这款游戏对计算机程序而言,充满了各种意想不到的挑战。”

实际上,赫什从去年开始就在Twitch平台上进行直播。他的日常就是用公司自家的Claude模型来玩《精灵宝可梦》。这位负责人平时的工作就是帮助客户部署AI解决方案,因此,他开启直播本质上也是一场公开的模型能力测试。

这位负责人的创新做法,也激发了不少开发者的灵感。他们陆续推出了“Gemini玩《宝可梦》”、“GPT玩《宝可梦》”等类似的直播节目。

后来,这些直播甚至引起了谷歌和OpenAI官方的注意。开发团队有时还会客串直播间,亲自调整模型参数。在最新的模型能力加持下,Gemini和GPT已经成功通关了Game Boy时代的《宝可梦蓝》,目前正在挑战续作;而Claude至今还没能打通任何一个版本。

谷歌、OpenAI争相让旗下AI玩经典《精灵宝可梦》游戏,衡量GPT、Gemini的真正实力

那为什么要用《宝可梦》来评估AI性能呢?赫什解释道:“因为这款游戏能为我们提供一种直观观测模型表现的方法,同时还能够用量化指标来评估其综合能力。”

通常来说,玩家在《宝可梦》系列游戏中,需要不断升级、训练已有的或是刚刚抓到的宝可梦,还要击败道馆馆主来捕捉新的宝可梦。整个游戏流程并非简单的线性推进,而是充满了复杂的判断与取舍。

此外,玩家在游戏中还经常要面对各种抉择:是先冒险挑战强大的训练家来获取稀有宝可梦,还是稳扎稳打,打造出一支实力均衡的队伍。

显然,人类非常擅长做这类决策,这也是游戏的乐趣所在。但对于AI来说,这无疑是一场关于逻辑推理、风险评估以及长期规划能力的综合考验。

因此,研究人员会深入剖析AI在游戏中的决策方式,以更深刻地理解模型能力的边界所在。

赫什还会将AI玩《宝可梦》的过程与结果分享给客户,以帮助改进控制框架,从而提升其算力的使用效率,让模型能够更加高效地运转。

来源:https://tech.ifeng.com/c/8qCjYOVqRNl
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

古尔曼披露:苹果Apple Intelligence在中国意外上线后下线
礼仪与书信
古尔曼披露:苹果Apple Intelligence在中国意外上线后下线

3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig

热心网友
03.31
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备
AI
当DeepSeek崩溃10小时,梁文锋称是为V4冲击波做准备

DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值

热心网友
03.30
杨植麟等共话AI大模型趋势:未来12个月将走向何方?
AI
杨植麟等共话AI大模型趋势:未来12个月将走向何方?

财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、

热心网友
03.30
苹果认清现实:错失大模型AI机遇后,重回硬件赛道
AI
苹果认清现实:错失大模型AI机遇后,重回硬件赛道

库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto

热心网友
03.30

最新APP

你说我猜
你说我猜
休闲益智 03-31
史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29

热门推荐

OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜
网络安全
OPPO Find X9s Pro实拍对比Ultra:细节更真实,手感更胜

3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro

热心网友
03.31
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连
电脑教程
揭秘Yandex网页版免注册入口,2026年俄罗斯搜索直连

Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界

热心网友
03.31
日元3月大跌13.23%,创2020年3月以来最大单月跌幅
科技数码
日元3月大跌13.23%,创2020年3月以来最大单月跌幅

格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。

热心网友
03.31
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元
科技数码
顺丰控股AH股齐升2025年净利增9.31% 拟10派4.3元

顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,

热心网友
03.31
小吉空调双十服务:提升家居空间美学的专业方案
科技数码
小吉空调双十服务:提升家居空间美学的专业方案

小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”

热心网友
03.31