「人類最後的測驗」(Humanity's Last Examination,簡稱HLE)是一項專門設計的考試,旨在測試人工智慧(AI)的學術知識和推理能力。這項測驗的獨特之處在於,題目無法透過簡單的記憶或網路搜尋來解決,必須仰賴邏輯推理能力。由來自全球超過50個國家、1000多名專家共同出題,HLE於2025年1月正式推出,其題目經過嚴格審核,確保無法在網路上找到答案或被現有的大型語言模型(LLM)輕易破解。
HLE被視為AI的試金石,因為它不僅測試AI的知識儲備,更考驗其推理、理解和解決複雜問題的能力。測驗中約有14%的題目屬於多模態,要求AI必須理解圖表或影像才能作答,進一步提高了測試的難度。HLE分為兩種模式:純模型模式(AI僅依賴既有知識)和外掛工具模式(AI可使用網頁搜尋等工具)。這兩種模式的測試結果,能夠全面評估AI在不同情境下的表現。
在HLE的測試中,Google DeepMind和Zoom分別取得了領先的成績。Zoom透過「聯邦式架構」整合多個基礎模型,展現了AI應用的未來方向。HLE的測試結果顯示,AI在專業領域的表現雖然仍不如人類專家,但其進步速度驚人。此外,AI正從輔助工具進化為能獨立承接並解決問題的「代理人」,這對軟體產業產生了巨大衝擊。HLE也提醒我們,應思考如何善用AI來極大化人類的福祉,同時有效控管其潛在的負面影響。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容