「人類最後的測驗」（HLE）的核心目標是什麼？

「人類最後的測驗」（HLE）的核心目標

「人類最後的測驗」（Humanity's Last Examination，HLE）的核心目標是測試人工智慧（AI）的學術知識和推理能力，著重於那些無法透過簡單的記憶或網路搜尋解決的難題。這項測驗旨在挖掘AI是否具備真正的邏輯推理能力，並避免AI僅僅依賴現有大型語言模型（LLM）的資料庫。

HLE的設計與評估標準

為了確保測驗的有效性，HLE由來自全球50多個國家、超過1,000名專家共同出題，並於2025年1月正式推出。審核題目時，任何可以透過網路搜尋找到答案或已被現有LLM破解的問題都會被剔除。此外，約14％的題目屬於多模態，要求AI必須理解圖表或影像才能作答，進一步提升了測驗的難度與複雜性。

HLE的兩種測試模式

HLE分為兩種模式：純模型模式和外掛工具模式。在純模型模式下，AI只能依靠其內建的知識作答，最佳成績為37.5％。在外掛工具模式下，AI可以使用網頁搜尋背景知識、生成程式碼並執行程式，成績提升至45.8％。儘管AI在某些領域的表現已接近人類專家，但整體而言，人類專家在各自領域的正確率仍可達到95％。HLE的目的不僅是評估AI的當前能力，也為AI的未來發展設定了更高的標準。

「人類最後的測驗」（HLE）的核心目標是什麼？ | 數位時代

「人類最後的測驗」（HLE）的核心目標

HLE的設計與評估標準

HLE的兩種測試模式