「人類最後的測驗」（HLE）究竟是什麼？它為何被視為AI的試金石？

什麼是「人類最後的測驗」（HLE）？

「人類最後的測驗」（Humanity's Last Examination，簡稱HLE）是一項專門設計的考試，旨在測試人工智慧（AI）的學術知識和推理能力。這項測驗的獨特之處在於，題目無法透過簡單的記憶或網路搜尋來解決，必須仰賴邏輯推理能力。由來自全球超過50個國家、1000多名專家共同出題，HLE於2025年1月正式推出，其題目經過嚴格審核，確保無法在網路上找到答案或被現有的大型語言模型（LLM）輕易破解。

為何HLE被視為AI的試金石？

HLE被視為AI的試金石，因為它不僅測試AI的知識儲備，更考驗其推理、理解和解決複雜問題的能力。測驗中約有14%的題目屬於多模態，要求AI必須理解圖表或影像才能作答，進一步提高了測試的難度。HLE分為兩種模式：純模型模式（AI僅依賴既有知識）和外掛工具模式（AI可使用網頁搜尋等工具）。這兩種模式的測試結果，能夠全面評估AI在不同情境下的表現。

HLE的測試結果與啟示

在HLE的測試中，Google DeepMind和Zoom分別取得了領先的成績。Zoom透過「聯邦式架構」整合多個基礎模型，展現了AI應用的未來方向。HLE的測試結果顯示，AI在專業領域的表現雖然仍不如人類專家，但其進步速度驚人。此外，AI正從輔助工具進化為能獨立承接並解決問題的「代理人」，這對軟體產業產生了巨大衝擊。HLE也提醒我們，應思考如何善用AI來極大化人類的福祉，同時有效控管其潛在的負面影響。

「人類最後的測驗」（HLE）究竟是什麼？它為何被視為AI的試金石？ | 數位時代

什麼是「人類最後的測驗」（HLE）？

為何HLE被視為AI的試金石？

HLE的測試結果與啟示