「人類最後的測驗」（HLE）是什麼？它如何測試AI的真實能力？

什麼是「人類最後的測驗」（HLE）？

「人類最後的測驗」（Humanity's Last Examination，HLE）是一項專門設計來測試人工智慧（AI）學術知識和推理能力的考試。這項測驗的獨特之處在於，題目無法透過簡單的記憶或網路搜尋來解決，強調AI必須具備真正的邏輯推理能力。HLE由全球超過50個國家的1,000多名專家共同出題，並於2025年1月正式推出，旨在挖掘AI在複雜問題解決方面的潛力。若測驗題目能輕易在網路上找到答案，或已被現有的大型語言模型（LLM）破解，就會被排除。

HLE如何測試AI的真實能力？

HLE透過兩種主要模式來評估AI的真實能力：純模型模式和外掛工具模式。在純模型模式下，AI完全依賴其內建的大型語言模型知識來解答問題，不允許連接任何外部工具。相比之下，外掛工具模式則允許AI使用網頁搜尋來獲取背景知識、生成程式碼並執行程式。約14%的題目為多模態，要求AI理解圖表或影像才能作答。

HLE的結果與啟示

截至2025年末，在純模型模式下，AI的最佳成績為37.5%，而在外掛工具模式下則提升至45.8%，這兩項紀錄均由Google的Gemini 3.5 Pro所創下。隨後，Zoom採用聯邦式架構，整合多個基礎模型，將分數進一步推升至48.1%。儘管這些成績與人類專家在各自領域中95%的正確率相比仍有差距，但AI的進步速度驚人，2025年初測驗剛發布時，最高分還不到20%。HLE的結果顯示，AI正在從輔助工具進化為能自主調用工具、解決難題的「代理人」，對軟體業與商業收費模式產生重大影響，同時也突顯了在特定任務中運用多模型協作的潛力。

「人類最後的測驗」（HLE）是什麼？它如何測試AI的真實能力？ | 數位時代

什麼是「人類最後的測驗」（HLE）？

HLE如何測試AI的真實能力？

HLE的結果與啟示