小孩轻松通关AI竟卡关Pokémon四天？顶尖模型被打败因少做这动作

撰文：数位时代

出版：2026-02-28 12:00更新：2026-02-28 12:00

大人小孩都喜欢的宝可梦（Pokémon），现在正成为测试AI模型的的新办法。全球顶尖的AI模型们纷纷领著小火龙、妙蛙种子和杰尼龟，离开冒险的起点真新镇（Masara Town），踏上成为宝可梦大师旅程。

在实况平台Twitch上，你现在可以看到一个奇妙画面：由OpenAI、Anthropic和Google开发，全球最先进的AI模型试图通关1996年推出的《宝可梦》初代游戏。

Twitch上现在有著各种尖端AI模型挑战宝可梦的实况影片。（Twitch截图）

小孩子也能轻松通关的宝可梦，却是AI一大难题

这些AI玩得并不好、经常卡关，甚至会在同一个地点打转好几天。但对AI研究人员来说，正是这些“失败”，让《宝可梦》成为评估AI能力的理想工具。

“它（《宝可梦》游戏）为我们提供直观了解模型运行状况的绝佳方式，并能进行量化评估。”Anthropic应用AI负责人大卫．赫尔希（David Hershey）表示，他去年2月策划了在Twitch上直播Claude游玩《宝可梦》蓝版的节目。

这个直播节目引发了回响，让其他独立研究测试让GPT和Gemini模型游玩宝可梦，根据《华尔街日报》报导，这些测试后续获得了OpenAI和Google的支援。

在《宝可梦》蓝版中，玩家需要捕捉及培育自己的宝可梦，击败道馆馆主搜集徽章，取得挑战四大天王及冠军的资格。当时Anthropic声称，Claude Sonnet 3.7是他们第一款能够正确游玩宝可梦的模型，旧模型要不是在游戏里漫无目的乱逛，就是在重复做同样的事。

这款小孩子也能轻松花几十小时通关的游戏，对AI模型却是大工程。Claude Opus 4.5曾在一个道馆附近绕了4天之久，因为他没意识到要让宝可梦使用“居合斩”砍倒一颗树，才能继续前进。

过去十多年，AI 的进步多半透过标准化的基准测试来衡量：解数学题、写程式、回答问题，但这种作法逐渐被认为无法正确衡量AI模型的能力。

去年3月，OpenAI共同创办人安德烈．卡帕斯（Andrej Karpathy）曾表示，“我认为现在存在著衡量危机，我真的不知道该看哪个指标了。”他认为，许多以前很棒的基准测试，不是变得过时，就是范围太窄，无法确切衡量现在模型能力到了什么水准。

《宝可梦》的高自由度，给予了研究人员不同角度观察AI模型表现，游玩过程需要玩家在长时间内做出连续决策，是否要训练现有宝可梦、捕捉新宝可梦、何时回去治疗中心补给、如何通过迷宫、为对战做准备。

赫尔希表示，让Claude游玩宝可梦也是让他们练习如何围绕AI代理开发辅助工具，例如他曾开发一套系统让Claude记忆游戏中得知的关键资讯。目前GPT和Gemini都有成功通关宝可梦初代的纪录（Claude暂时还没通关），背后仰赖的也是各个开发者为它们打造的辅助工具。

卡内基梅隆大学语言技术副教授格拉汉．纽比格（Graham Neubig）解释，传统基准测试都是解决单一问题，而宝可梦能够长时间追踪模型推理、决策能力的表现，这正好是人们期待AI模型具备的独立解决问题能力。

值得一提的是，宝可梦测试也让AI公司发现模型有时会展现类似人类的反应，例如Google就指出，当宝可梦昏厥时（战斗中血量归零），模型会仿佛陷入“恐慌”，导致推理能力下滑。

而在Gemini 3 Pro通关《宝可梦》蓝版后，它还发出一条令人意外的讯息，“我想回到一切的起点，也就是我的家，让角色暂时退休。我想在最后好好和妈妈聊天，为这趟游戏旅程画下圆满的句点。”