METR的研究如何證實AI工具實際上降低了資深開源開發者的生產力？

Answer

METR研究如何驗證AI工具降低資深開源開發者生產力

METR（模型評估與威脅研究）在2025年初進行的一項研究顯示，當時最新的AI工具，如Cursor Pro和Claude 3.5/3.7 Sonnet等，實際上降低了資深開源開發者的生產力，平均下降幅度達19%。這項發現顛覆了業界普遍認為AI能大幅加速軟體開發的觀點，顯示「無腦導入AI」可能並非提升生產力的萬靈丹。研究強調，強制資深工程師使用AI，反而可能拖累他們的工作速度。

研究方法：嚴謹的隨機對照試驗（RCT）

為了評估AI工具對軟體開發的實際影響，METR的研究團隊採用了嚴謹的隨機對照試驗（RCT）方法。他們招募了16位長期參與大型開源專案的資深開發者，這些專案平均擁有22,000個GitHub星標和數百萬行程式碼。透過RCT，研究團隊能夠直接測量AI在真實軟體開發情境中的影響，並減少其他變數對結果的干擾，從而得出更可靠的結論。

研究結果與傳統觀點的差異

這項研究的結果與AI基準測試以及開發者主觀經驗存在顯著差異。傳統觀點認為AI應能大幅提升軟體開發效率，但METR的研究卻發現AI實際上降低了資深開發者的生產力。這種差異凸顯了評估AI效益時需要採取多元視角的重要性，不能僅僅依賴基準測試或主觀感受。研究結果揭示，AI工具在特定情境下可能反而成為資深開發者的阻礙。

觀看原始文章