谷歌与OpenAI让AI玩《精灵宝可梦》,实测GPT和Gemini谁更强
1月25日消息,要想准确评估AI的智能程度与能力,眼下涌现了各种各样的跑分测试和评测方法。不过,一种相对小众的测试方式,最近也在AI领域引发了不少关注。

目前,谷歌、OpenAI和Anthropic等AI巨头,正让自家的大语言模型挑战《精灵宝可梦》经典系列游戏,并以此作为衡量其AI性能表现的新标尺。
Anthropic公司AI部门负责人戴维·赫什对此给出了他的解读:“比起《Pong》这类规则简单的游戏,《精灵宝可梦》之所以更能吸引机器学习社区的关注,是因为它的复杂性和开放性更强。这款游戏对计算机程序而言,充满了各种意想不到的挑战。”
实际上,赫什从去年开始就在Twitch平台上进行直播。他的日常就是用公司自家的Claude模型来玩《精灵宝可梦》。这位负责人平时的工作就是帮助客户部署AI解决方案,因此,他开启直播本质上也是一场公开的模型能力测试。
这位负责人的创新做法,也激发了不少开发者的灵感。他们陆续推出了“Gemini玩《宝可梦》”、“GPT玩《宝可梦》”等类似的直播节目。
后来,这些直播甚至引起了谷歌和OpenAI官方的注意。开发团队有时还会客串直播间,亲自调整模型参数。在最新的模型能力加持下,Gemini和GPT已经成功通关了Game Boy时代的《宝可梦蓝》,目前正在挑战续作;而Claude至今还没能打通任何一个版本。

那为什么要用《宝可梦》来评估AI性能呢?赫什解释道:“因为这款游戏能为我们提供一种直观观测模型表现的方法,同时还能够用量化指标来评估其综合能力。”
通常来说,玩家在《宝可梦》系列游戏中,需要不断升级、训练已有的或是刚刚抓到的宝可梦,还要击败道馆馆主来捕捉新的宝可梦。整个游戏流程并非简单的线性推进,而是充满了复杂的判断与取舍。
此外,玩家在游戏中还经常要面对各种抉择:是先冒险挑战强大的训练家来获取稀有宝可梦,还是稳扎稳打,打造出一支实力均衡的队伍。
显然,人类非常擅长做这类决策,这也是游戏的乐趣所在。但对于AI来说,这无疑是一场关于逻辑推理、风险评估以及长期规划能力的综合考验。
因此,研究人员会深入剖析AI在游戏中的决策方式,以更深刻地理解模型能力的边界所在。
赫什还会将AI玩《宝可梦》的过程与结果分享给客户,以帮助改进控制框架,从而提升其算力的使用效率,让模型能够更加高效地运转。
相关攻略
4月2日,阿里巴巴正式推出新一代大语言模型Qwen3 6-Plus,并宣布其企业级AI旗舰应用“悟空”率先完成接入。此次升级不仅是模型的迭代,更标志着AI在企业级应用场景中的核心能力实现了关键性跨越。 官方信息显示,Qwen3 6-Plus在代码生成、智能体协作、逻辑推理及原生多模态理解等核心维度均
近日,开源技术圈迎来一项标志性进展:百度依托文心大模型打造的PaddleOCR项目,在GitHub上的Star数量突破73 3K,首次超越谷歌旗下长期占据领先地位的Tesseract OCR(73 2K)。这意味着,全球最受开发者欢迎的OCR开源项目正式易主,标志着大模型驱动的技术范式正在重塑行业格
Cursor的命运,悬在两个速度之间:AI自主编码成熟的速度,和Cursor自我蜕变的速度。 这家公司正处在一个奇特的矛盾点上:它依然蒸蒸日上,却又似乎正在走向绝望。关于这家一度是“Vibe Coding”代名词的明星公司,市场同时存在着两种截然相反却又似乎都能成立的观点。 数据描绘的是一幅烈火烹油
近日,Reddit上一则热帖引发了广泛关注。游戏开发商Beamable的首席执行官Jon Radoff,利用一个周末的时间,借助AI助手Claude,成功复活了自己19岁时开发的一款名为《未来往昔传奇》(Legends of Future Past)的MUD(多用户地下城)游戏。这款诞生于1992年
上周,Anthropic刚宣布对OpenClaw采取限制措施,这周,事情就发展到了一个新阶段——连OpenClaw项目的核心人物Peter Steinberger的个人账户也遭到了封禁。这场风波究竟会如何演变? 今天一早,OpenClaw创始人Peter Steinberger在社交平台X上发文确认
热门专题
热门推荐
在现代化仓储物流管理中,实现实时、精准的库存可视化是提升运营韧性与效率的核心环节。近日,知名定制化第三方物流服务商Romark Logistics宣布了一项重要技术升级:在其位于哈兹尔顿的仓储基地正式部署由Dexory提供的AI驱动仓储可视化平台DexoryView。此举标志着Romark Logi
今天,谷歌正式将我们带入了一个新的阶段:AI智能体时代。其推出的Gemini Spark,被定义为一款能够全天候运行的个人AI助手。它的核心使命很明确——接管我们日益复杂的数字生活,并实实在在地替我们处理一些工作。 这款助手的“大脑”是最新发布的Gemini 3 5 Flash模型,而协调其行动的“
近日,《自然》杂志同期发表了两项突破性研究,展示了两种旨在革新科研工作流的AI系统。一款来自谷歌,名为Co-Scientist,强调人机深度协作;另一款由非营利机构FutureHouse开发,其系统更进一步,能对特定生物实验数据进行自动化评估与分析。 尽管谷歌表示其系统架构同样适用于物理学探索,但两
谷歌近期对其“氛围编程”平台进行了重要升级。现在,开发者可以直接在谷歌AI Studio中,通过自然语言对话来构建安卓原生应用。 具体操作流程非常直观:用户只需用日常语言描述自己的应用构思,平台内置的安卓模拟器便会实时生成应用预览。若想在实际设备上测试,只需将安卓手机连接至电脑,即可直接安装体验。更
今天,科大讯飞旗下孵化的AI硬件品牌未来智能,正式发布了其创新产品——viaim讯飞智能体耳机。这款产品的核心突破在于,将先进的办公AI Agent能力,集成到一款日常可佩戴的耳机设备中。它不仅超越了传统录音转写功能,更实现了长期记忆存储、多模型灵活调用与智能复盘分析,目标清晰:将耳机从单纯的音频播





