Mira Murati 領導的 Thinking Machines Lab 論文探討了大型語言模型(LLM)在推理過程中的哪一個核心問題?
Answer
Mira Murati領導的 Thinking Machines Lab 論文核心探討問題
Mira Murati 領導的 Thinking Machines Lab 發表的一篇論文,主要探討大型語言模型(LLM)在推理過程中出現的不確定性問題。論文深入研究了即使將溫度參數設定為 0,理論上應消除所有隨機性的情況下,LLM 的回答仍然不確定的現象。這種不確定性對於需要精確、可靠和可複製結果的科學研究和商業應用構成了重大挑戰。
論文揭示的潛在原因:浮點數非結合律
論文指出,這種不確定性的主要原因是電腦固有的「浮點數非結合律」問題。由於電腦使用浮點數格式儲存數字,而浮點數的精度有限,因此在進行一系列計算時,計算的順序不同可能會因為精度損失而導致最終結果出現微小的差異。這類似於使用一把只能精確到公分的尺去測量台北 101 的高度加上一張 A4 紙的厚度,由於精度不足,A4 紙的厚度很可能被忽略,導致計算結果不準確。
論文揭示的潛在原因:平行運算
此外,GPU 的平行運算也是造成不確定性的原因之一。GPU 擁有大量的計算核心,可以同時處理大量的計算任務。然而,當這些核心同時計算並將結果匯報到同一個地方時,由於計算順序的隨機性,可能會導致最終結果產生差異。這就像上千個工人在工廠裡同時工作,匯報結果的順序不同可能會影響最終的統計結果。