AI 產業面臨的「資料短缺」問題是如何產生的?
Answer
AI產業「資料短缺」問題的成因
AI產業面臨的「資料短缺」問題,源於AI模型對資料的巨大需求與現有資料的限制。AI公司在訓練模型時,需要大量的資料讓AI反覆學習。然而,網路上的公開資料並非無限,隨著AI技術的發展,高品質的資料正迅速耗盡。預計在2026至2028年間,AI公司可能會用完所有可用的公開資料,導致AI模型難以持續進化。
資料短缺的具體表現
儘管人類會不斷產生新的資料,但這些新資料的邊際效益遞減。換句話說,人類產生新知識的速度有限,且大多數新資料對AI的進步幫助不大。即使產生了有用的新知識,也很快被AI模型吸收殆盡。頂尖的AI模型已消耗了網路上幾乎所有唾手可得的高品質文字和圖像,這使得AI產業不得不尋找新的解決方案,包括讓AI學習由AI自己生成的資料,即「合成數據」。
「哈布斯堡效應」與模型崩潰
讓AI學習合成數據雖然看似合理,但也存在風險。研究表明,經過幾次迭代後,AI會變得越來越差,甚至完全不能使用,這被稱為「哈布斯堡效應」或「模型崩潰」。這種現象類似於影印機反覆影印影本,每次影印都會使圖像變得模糊。AI在學習合成數據的過程中,會不斷「取平均值」,平滑掉罕見的知識,強化主流觀點,最終導致AI生成內容變得平庸、可預測,且缺乏原創性。此外,AI還會遺忘長尾數據,放大錯誤,最終模型會喪失語言和現實的基本結構,輸出毫無意義的內容。