谷歌与OpenAI让AI玩《精灵宝可梦》,实测GPT和Gemini谁更强
1月25日消息,要想准确评估AI的智能程度与能力,眼下涌现了各种各样的跑分测试和评测方法。不过,一种相对小众的测试方式,最近也在AI领域引发了不少关注。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

目前,谷歌、OpenAI和Anthropic等AI巨头,正让自家的大语言模型挑战《精灵宝可梦》经典系列游戏,并以此作为衡量其AI性能表现的新标尺。
Anthropic公司AI部门负责人戴维·赫什对此给出了他的解读:“比起《Pong》这类规则简单的游戏,《精灵宝可梦》之所以更能吸引机器学习社区的关注,是因为它的复杂性和开放性更强。这款游戏对计算机程序而言,充满了各种意想不到的挑战。”
实际上,赫什从去年开始就在Twitch平台上进行直播。他的日常就是用公司自家的Claude模型来玩《精灵宝可梦》。这位负责人平时的工作就是帮助客户部署AI解决方案,因此,他开启直播本质上也是一场公开的模型能力测试。
这位负责人的创新做法,也激发了不少开发者的灵感。他们陆续推出了“Gemini玩《宝可梦》”、“GPT玩《宝可梦》”等类似的直播节目。
后来,这些直播甚至引起了谷歌和OpenAI官方的注意。开发团队有时还会客串直播间,亲自调整模型参数。在最新的模型能力加持下,Gemini和GPT已经成功通关了Game Boy时代的《宝可梦蓝》,目前正在挑战续作;而Claude至今还没能打通任何一个版本。

那为什么要用《宝可梦》来评估AI性能呢?赫什解释道:“因为这款游戏能为我们提供一种直观观测模型表现的方法,同时还能够用量化指标来评估其综合能力。”
通常来说,玩家在《宝可梦》系列游戏中,需要不断升级、训练已有的或是刚刚抓到的宝可梦,还要击败道馆馆主来捕捉新的宝可梦。整个游戏流程并非简单的线性推进,而是充满了复杂的判断与取舍。
此外,玩家在游戏中还经常要面对各种抉择:是先冒险挑战强大的训练家来获取稀有宝可梦,还是稳扎稳打,打造出一支实力均衡的队伍。
显然,人类非常擅长做这类决策,这也是游戏的乐趣所在。但对于AI来说,这无疑是一场关于逻辑推理、风险评估以及长期规划能力的综合考验。
因此,研究人员会深入剖析AI在游戏中的决策方式,以更深刻地理解模型能力的边界所在。
赫什还会将AI玩《宝可梦》的过程与结果分享给客户,以帮助改进控制框架,从而提升其算力的使用效率,让模型能够更加高效地运转。
相关攻略
3月31日,苹果于今日凌晨开始分批推送国行Apple Intelligence Beta版,需升级至iOS 26 4及以上系统方可体验。彭博社记者马克·古尔曼今日发文称Apple Intellig
DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值
财联社3月29日讯2026年,一只“红色小龙虾”在科技圈引发广泛关注。OpenClaw的爆火,不仅是一次技术产品的出圈,也在中关村论坛期间掀起了关于AI开源生态与智能体未来的深层讨论,杨植麟、张鹏、
库克手持iPhone 17 Pro 北京时间3月30日,据彭博社报道,苹果准备开放Siri等AI战略大调整表明,该公司正在重新致力于其核心商业模式:销售硬件和服务,依靠硬件搭建起类似于App Sto
热门专题
热门推荐
3月31日消息,OPPO将于4月21日举行新品发布会,推出Find X9s Pro、Find X9 Ultra两款影像旗舰。今日,OPPO Find 系列产品负责人卓世杰晒出Find X9s Pro
Yandex网页版无需登录入口是https: ya ru ,该链接通过skip_sslsignin=1参数直连最新服务器,自动跳过登录验证,支持多语言、多服务快捷访问,具备轻量界
格隆汇3月31日|日经225指数收盘下跌822 13点,跌幅1 58%,报51063 72点。日经225指数3月收跌13 23%,创下自2020年3月(新冠疫情初期)以来最大月度跌幅。
顺丰控股港股(6936 HK)涨超5%,报35 02港元,最高触及35 7港元;顺丰控股A股(002352 SZ)涨4%,报38 23元,创一个半月新高。消息面上,顺丰控股披露了2025年年度报告,
小吉空调以“双十”服务,向用户交付家居空间的美学方案家电行业的竞争,长期围绕产品参数与外观设计展开;但当产品趋同成为常态,品牌真正的分水岭开始后移——从“产品交付那一刻”延伸到“用户使用的整个周期”





