為什麼過擬合的模型在面對新資料時,準確度會出現巨大差距?
Answer
過擬合模型在新資料上準確度大幅下降的原因
過擬合(Overfitting)是指機器學習模型在訓練資料上表現過於出色,以至於學習了訓練資料中不必要的細節和雜訊,而非資料的普遍規律。這種情況下,模型就像死背考古題的學生,在面對新資料時,因為題目稍有變化就無法應對,導致準確度大幅下降。
過擬合的根本原因在於模型過於複雜,或者訓練資料不足以涵蓋所有可能的情況。當模型擁有過多的參數,或者訓練時間過長時,它可能會開始記憶訓練資料中的每一個細節,包括那些隨機的、不具代表性的特徵。例如,如果訓練一個辨識狗的 AI 模型,而訓練資料中絕大多數是狗在公園玩耍的照片,模型可能會錯誤地學習到「看到草地就等於有狗」,而無法辨識室內的狗。
與過擬合相對的是欠擬合(Underfitting),指的是模型學習不足,無法捕捉到資料中的重要規律。一個欠擬合的模型就像只學到「有四條腿、毛茸茸」這種粗淺特徵的模型,無論是室內、戶外、長毛或短毛的狗都難以分辨。理想的模型應該在過擬合和欠擬合之間找到平衡點,既能準確地學習訓練資料中的規律,又能很好地泛化到新資料上。