「人類最後的測驗」(HLE)的核心目標是什麼? | 數位時代

「人類最後的測驗」(HLE)的核心目標

「人類最後的測驗」(Humanity's Last Examination,HLE)的核心目標是測試人工智慧(AI)的學術知識和推理能力,著重於那些無法透過簡單的記憶或網路搜尋解決的難題。這項測驗旨在挖掘AI是否具備真正的邏輯推理能力,並避免AI僅僅依賴現有大型語言模型(LLM)的資料庫。

HLE的設計與評估標準

為了確保測驗的有效性,HLE由來自全球50多個國家、超過1,000名專家共同出題,並於2025年1月正式推出。審核題目時,任何可以透過網路搜尋找到答案或已被現有LLM破解的問題都會被剔除。此外,約14%的題目屬於多模態,要求AI必須理解圖表或影像才能作答,進一步提升了測驗的難度與複雜性。

HLE的兩種測試模式

HLE分為兩種模式:純模型模式和外掛工具模式。在純模型模式下,AI只能依靠其內建的知識作答,最佳成績為37.5%。在外掛工具模式下,AI可以使用網頁搜尋背景知識、生成程式碼並執行程式,成績提升至45.8%。儘管AI在某些領域的表現已接近人類專家,但整體而言,人類專家在各自領域的正確率仍可達到95%。HLE的目的不僅是評估AI的當前能力,也為AI的未來發展設定了更高的標準。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容