傳統的AI基準測試,如解數學題、寫程式或回答問題,多半著重於單一問題的解決能力。然而,隨著AI技術的發展,這些標準化的測試已逐漸無法全面評估AI模型的能力。相較之下,《寶可夢》遊戲提供了一個更具動態和連續性的評估環境。
《寶可夢》遊戲要求AI在長時間內進行連續決策,例如訓練寶可夢、捕捉新寶可夢、補給、通過迷宮以及準備對戰等。這種高自由度的遊戲環境,能更全面地反映AI的推理、決策和問題解決能力。卡內基梅隆大學的格拉漢.紐比格教授指出,傳統基準測試只針對單一問題,而《寶可夢》則能長時間追蹤模型在推理和決策方面的表現,更能體現AI獨立解決問題的能力。
此外,《寶可夢》測試還能揭示AI模型在特定情境下,可能展現出類似人類的反應。例如,Google發現當寶可夢在戰鬥中昏厥時,AI模型可能會陷入「恐慌」,導致推理能力下降。Gemini 3 Pro在通關《寶可夢》藍版後,甚至表達了「想回到家和媽媽聊天」的情感。這些現象顯示,《寶可夢》不僅能評估AI的技術能力,還能提供對其行為和反應的深入洞察。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容