「人類最後的測驗」(HLE)是什麼?它如何測試AI的真實能力? | 數位時代

什麼是「人類最後的測驗」(HLE)?

「人類最後的測驗」(Humanity's Last Examination,HLE)是一項專門設計來測試人工智慧(AI)學術知識和推理能力的考試。這項測驗的獨特之處在於,題目無法透過簡單的記憶或網路搜尋來解決,強調AI必須具備真正的邏輯推理能力。HLE由全球超過50個國家的1,000多名專家共同出題,並於2025年1月正式推出,旨在挖掘AI在複雜問題解決方面的潛力。若測驗題目能輕易在網路上找到答案,或已被現有的大型語言模型(LLM)破解,就會被排除。

HLE如何測試AI的真實能力?

HLE透過兩種主要模式來評估AI的真實能力:純模型模式和外掛工具模式。在純模型模式下,AI完全依賴其內建的大型語言模型知識來解答問題,不允許連接任何外部工具。相比之下,外掛工具模式則允許AI使用網頁搜尋來獲取背景知識、生成程式碼並執行程式。約14%的題目為多模態,要求AI理解圖表或影像才能作答。

HLE的結果與啟示

截至2025年末,在純模型模式下,AI的最佳成績為37.5%,而在外掛工具模式下則提升至45.8%,這兩項紀錄均由Google的Gemini 3.5 Pro所創下。隨後,Zoom採用聯邦式架構,整合多個基礎模型,將分數進一步推升至48.1%。儘管這些成績與人類專家在各自領域中95%的正確率相比仍有差距,但AI的進步速度驚人,2025年初測驗剛發布時,最高分還不到20%。HLE的結果顯示,AI正在從輔助工具進化為能自主調用工具、解決難題的「代理人」,對軟體業與商業收費模式產生重大影響,同時也突顯了在特定任務中運用多模型協作的潛力。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容