第二代 VLA 大模型為何被稱為「拆掉語言層」，它在技術上有何突破？

Answer

小鵬汽車第二代 VLA 大模型「拆掉語言層」的技術突破

小鵬汽車在第七屆科技日上展示了其第二代 VLA（視覺—語言—動作）大模型，這項技術的核心突破在於「拆掉語言層」。傳統的 VLA 模型需要經過「視覺→語言→動作」的兩次轉譯，容易產生延遲和資訊損耗。而第二代 VLA 則直接讓模型理解真實世界，就像人類「看路」而非「聽人讀路」，從而提升了反應速度和準確性。

物理世界模型的底層重構

這一技術跨越的關鍵在於「物理世界模型」的底層重構。小鵬汽車的團隊從「大語言模型」轉向「實體世界模型」，這被視為一次「巨大跳躍」。為了訓練這個模型，小鵬投入了近 1 億支影片片段（相當於 6.5 萬年駕駛場景），並依託三顆自研「圖靈」晶片（峰值算力 2250 TOPS）及 3 萬張阿里雲卡組成的算力集群，實現了「五天全鏈路迭代一次」的高效率開發。

技術突破帶來的應用與影響

第二代 VLA 的技術升級直接轉化為使用者體驗的躍升。它將支援「小路 NGP」，貫通高速、城市與園區，並適配歐洲路況。「無導航自動輔助駕駛」Super LCC、「理解紅綠燈」、「招手即停」等功能，讓輔助駕駛從「技能包堆砌」走向「類人本能」。更重要的是，小鵬宣布開源第二代 VLA，並與福斯深化合作，推動技術落地至大眾車型。

觀看原始文章