小孩轻松通关AI竟卡关Pokémon四天?顶尖模型被打败因少做这动作

撰文: 数位时代
出版:更新:

大人小孩都喜欢的宝可梦(Pokémon),现在正成为测试AI模型的的新办法。全球顶尖的AI模型们纷纷领著小火龙、妙蛙种子和杰尼龟,离开冒险的起点真新镇(Masara Town),踏上成为宝可梦大师旅程。

在实况平台Twitch上,你现在可以看到一个奇妙画面:由OpenAI、Anthropic和Google开发,全球最先进的AI模型试图通关1996年推出的《宝可梦》初代游戏。

Twitch上现在有著各种尖端AI模型挑战宝可梦的实况影片。(Twitch截图)

小孩子也能轻松通关的宝可梦,却是AI一大难题

这些AI玩得并不好、经常卡关,甚至会在同一个地点打转好几天。但对AI研究人员来说,正是这些“失败”,让《宝可梦》成为评估AI能力的理想工具。

“它(《宝可梦》游戏)为我们提供直观了解模型运行状况的绝佳方式,并能进行量化评估。”Anthropic应用AI负责人大卫.赫尔希(David Hershey)表示,他去年2月策划了在Twitch上直播Claude游玩《宝可梦》蓝版的节目。

这个直播节目引发了回响,让其他独立研究测试让GPT和Gemini模型游玩宝可梦,根据《华尔街日报》报导,这些测试后续获得了OpenAI和Google的支援。

在《宝可梦》蓝版中,玩家需要捕捉及培育自己的宝可梦,击败道馆馆主搜集徽章,取得挑战四大天王及冠军的资格。当时Anthropic声称,Claude Sonnet 3.7是他们第一款能够正确游玩宝可梦的模型,旧模型要不是在游戏里漫无目的乱逛,就是在重复做同样的事。

这款小孩子也能轻松花几十小时通关的游戏,对AI模型却是大工程。Claude Opus 4.5曾在一个道馆附近绕了4天之久,因为他没意识到要让宝可梦使用“居合斩”砍倒一颗树,才能继续前进。

长时间、连续决策能力,正是AI代理关键

过去十多年,AI 的进步多半透过标准化的基准测试来衡量:解数学题、写程式、回答问题,但这种作法逐渐被认为无法正确衡量AI模型的能力。

去年3月,OpenAI共同创办人安德烈.卡帕斯(Andrej Karpathy)曾表示,“我认为现在存在著衡量危机,我真的不知道该看哪个指标了。”他认为,许多以前很棒的基准测试,不是变得过时,就是范围太窄,无法确切衡量现在模型能力到了什么水准。

《宝可梦》的高自由度,给予了研究人员不同角度观察AI模型表现,游玩过程需要玩家在长时间内做出连续决策,是否要训练现有宝可梦、捕捉新宝可梦、何时回去治疗中心补给、如何通过迷宫、为对战做准备。

赫尔希表示,让Claude游玩宝可梦也是让他们练习如何围绕AI代理开发辅助工具,例如他曾开发一套系统让Claude记忆游戏中得知的关键资讯。目前GPT和Gemini都有成功通关宝可梦初代的纪录(Claude暂时还没通关),背后仰赖的也是各个开发者为它们打造的辅助工具。

卡内基梅隆大学语言技术副教授格拉汉.纽比格(Graham Neubig)解释,传统基准测试都是解决单一问题,而宝可梦能够长时间追踪模型推理、决策能力的表现,这正好是人们期待AI模型具备的独立解决问题能力。

值得一提的是,宝可梦测试也让AI公司发现模型有时会展现类似人类的反应,例如Google就指出,当宝可梦昏厥时(战斗中血量归零),模型会仿佛陷入“恐慌”,导致推理能力下滑。

而在Gemini 3 Pro通关《宝可梦》蓝版后,它还发出一条令人意外的讯息,“我想回到一切的起点,也就是我的家,让角色暂时退休。我想在最后好好和妈妈聊天,为这趟游戏旅程画下圆满的句点。”

【延伸阅读】1个问题玩死各大AI模型:洗车店离家50米 应开车去还是走路去?(点击连结看全文)

+4

延伸阅读:

打不进中国市场、却仍在中国大抢AI人才的Google,或许看中这三点

练习3个用AI的高超方式,秒变“AI应用专家”!你的隐藏发现,有机会比工程师更懂用 AI

【本文获“数位时代”授权转载。】