谷歌与OpenAI让AI玩《精灵宝可梦》，实测GPT和Gemini谁更强

首页

AI资讯

热心网友

转载

2026-01-25

1月25日消息，要想准确评估AI的智能程度与能力，眼下涌现了各种各样的跑分测试和评测方法。不过，一种相对小众的测试方式，最近也在AI领域引发了不少关注。

谷歌、OpenAI争相让旗下AI玩经典《精灵宝可梦》游戏，衡量GPT、Gemini的真正实力

目前，谷歌、OpenAI和Anthropic等AI巨头，正让自家的大语言模型挑战《精灵宝可梦》经典系列游戏，并以此作为衡量其AI性能表现的新标尺。

Anthropic公司AI部门负责人戴维·赫什对此给出了他的解读：“比起《Pong》这类规则简单的游戏，《精灵宝可梦》之所以更能吸引机器学习社区的关注，是因为它的复杂性和开放性更强。这款游戏对计算机程序而言，充满了各种意想不到的挑战。”

实际上，赫什从去年开始就在Twitch平台上进行直播。他的日常就是用公司自家的Claude模型来玩《精灵宝可梦》。这位负责人平时的工作就是帮助客户部署AI解决方案，因此，他开启直播本质上也是一场公开的模型能力测试。

这位负责人的创新做法，也激发了不少开发者的灵感。他们陆续推出了“Gemini玩《宝可梦》”、“GPT玩《宝可梦》”等类似的直播节目。

后来，这些直播甚至引起了谷歌和OpenAI官方的注意。开发团队有时还会客串直播间，亲自调整模型参数。在最新的模型能力加持下，Gemini和GPT已经成功通关了Game Boy时代的《宝可梦蓝》，目前正在挑战续作；而Claude至今还没能打通任何一个版本。

谷歌、OpenAI争相让旗下AI玩经典《精灵宝可梦》游戏，衡量GPT、Gemini的真正实力

那为什么要用《宝可梦》来评估AI性能呢？赫什解释道：“因为这款游戏能为我们提供一种直观观测模型表现的方法，同时还能够用量化指标来评估其综合能力。”

通常来说，玩家在《宝可梦》系列游戏中，需要不断升级、训练已有的或是刚刚抓到的宝可梦，还要击败道馆馆主来捕捉新的宝可梦。整个游戏流程并非简单的线性推进，而是充满了复杂的判断与取舍。

此外，玩家在游戏中还经常要面对各种抉择：是先冒险挑战强大的训练家来获取稀有宝可梦，还是稳扎稳打，打造出一支实力均衡的队伍。

显然，人类非常擅长做这类决策，这也是游戏的乐趣所在。但对于AI来说，这无疑是一场关于逻辑推理、风险评估以及长期规划能力的综合考验。

因此，研究人员会深入剖析AI在游戏中的决策方式，以更深刻地理解模型能力的边界所在。

赫什还会将AI玩《宝可梦》的过程与结果分享给客户，以帮助改进控制框架，从而提升其算力的使用效率，让模型能够更加高效地运转。

来源:https://tech.ifeng.com/c/8qCjYOVqRNl

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：蔚来换电网络超7309座，电池升级进展突破90% 下一篇：进OpenAI不必读博？核心成员揭秘o1模型关键

相关攻略

AI资讯

悟空编程率先接入国产大模型Qwen3.6 Plus

4月2日，阿里巴巴正式推出新一代大语言模型Qwen3 6-Plus，并宣布其企业级AI旗舰应用“悟空”率先完成接入。此次升级不仅是模型的迭代，更标志着AI在企业级应用场景中的核心能力实现了关键性跨越。官方信息显示，Qwen3 6-Plus在代码生成、智能体协作、逻辑推理及原生多模态理解等核心维度均

热心网友

05.20

AI资讯

GitHub最受欢迎OCR项目PaddleOCR使用指南

近日，开源技术圈迎来一项标志性进展：百度依托文心大模型打造的PaddleOCR项目，在GitHub上的Star数量突破73 3K，首次超越谷歌旗下长期占据领先地位的Tesseract OCR（73 2K）。这意味着，全球最受开发者欢迎的OCR开源项目正式易主，标志着大模型驱动的技术范式正在重塑行业格

热心网友

05.20

AI资讯

Cursor会倒闭吗分析其商业模式与未来前景

Cursor的命运，悬在两个速度之间：AI自主编码成熟的速度，和Cursor自我蜕变的速度。这家公司正处在一个奇特的矛盾点上：它依然蒸蒸日上，却又似乎正在走向绝望。关于这家一度是“Vibe Coding”代名词的明星公司，市场同时存在着两种截然相反却又似乎都能成立的观点。数据描绘的是一幅烈火烹油

热心网友

05.20

AI资讯

Claude周末复刻30年前经典游戏完整教程

近日，Reddit上一则热帖引发了广泛关注。游戏开发商Beamable的首席执行官Jon Radoff，利用一个周末的时间，借助AI助手Claude，成功复活了自己19岁时开发的一款名为《未来往昔传奇》（Legends of Future Past）的MUD（多用户地下城）游戏。这款诞生于1992年

热心网友

05.20

AI资讯

Anthropic解封创始人账号上周封禁OpenClaw系误会

上周，Anthropic刚宣布对OpenClaw采取限制措施，这周，事情就发展到了一个新阶段——连OpenClaw项目的核心人物Peter Steinberger的个人账户也遭到了封禁。这场风波究竟会如何演变？今天一早，OpenClaw创始人Peter Steinberger在社交平台X上发文确认

热心网友

05.20

热门推荐

AI资讯

Romark Logistics与Dexory合作以AI实时库存可视化平台优化仓储管理

在现代化仓储物流管理中，实现实时、精准的库存可视化是提升运营韧性与效率的核心环节。近日，知名定制化第三方物流服务商Romark Logistics宣布了一项重要技术升级：在其位于哈兹尔顿的仓储基地正式部署由Dexory提供的AI驱动仓储可视化平台DexoryView。此举标志着Romark Logi

热心网友

05.20

AI资讯

谷歌Gemini Spark AI助手全天候处理数字任务提升效率

今天，谷歌正式将我们带入了一个新的阶段：AI智能体时代。其推出的Gemini Spark，被定义为一款能够全天候运行的个人AI助手。它的核心使命很明确——接管我们日益复杂的数字生活，并实实在在地替我们处理一些工作。这款助手的“大脑”是最新发布的Gemini 3 5 Flash模型，而协调其行动的“

热心网友

05.20

AI资讯

两款AI科学助手成功实现药物重定向应用

近日，《自然》杂志同期发表了两项突破性研究，展示了两种旨在革新科研工作流的AI系统。一款来自谷歌，名为Co-Scientist，强调人机深度协作；另一款由非营利机构FutureHouse开发，其系统更进一步，能对特定生物实验数据进行自动化评估与分析。尽管谷歌表示其系统架构同样适用于物理学探索，但两

热心网友

05.20

AI资讯

谷歌AI Studio上线对话式开发安卓原生应用教程

谷歌近期对其“氛围编程”平台进行了重要升级。现在，开发者可以直接在谷歌AI Studio中，通过自然语言对话来构建安卓原生应用。具体操作流程非常直观：用户只需用日常语言描述自己的应用构思，平台内置的安卓模拟器便会实时生成应用预览。若想在实际设备上测试，只需将安卓手机连接至电脑，即可直接安装体验。更

热心网友

05.20

AI资讯

1099元龙虾耳机开箱评测音质与性价比如何

今天，科大讯飞旗下孵化的AI硬件品牌未来智能，正式发布了其创新产品——viaim讯飞智能体耳机。这款产品的核心突破在于，将先进的办公AI Agent能力，集成到一款日常可佩戴的耳机设备中。它不仅超越了传统录音转写功能，更实现了长期记忆存储、多模型灵活调用与智能复盘分析，目标清晰：将耳机从单纯的音频播

热心网友

05.20