第二代 VLA 大模型為何被稱為「拆掉語言層」,它在技術上有何突破?
Answer
小鵬汽車第二代 VLA 大模型「拆掉語言層」的技術突破
小鵬汽車在第七屆科技日上展示了其第二代 VLA(視覺—語言—動作)大模型,這項技術的核心突破在於「拆掉語言層」。傳統的 VLA 模型需要經過「視覺→語言→動作」的兩次轉譯,容易產生延遲和資訊損耗。而第二代 VLA 則直接讓模型理解真實世界,就像人類「看路」而非「聽人讀路」,從而提升了反應速度和準確性。
物理世界模型的底層重構
這一技術跨越的關鍵在於「物理世界模型」的底層重構。小鵬汽車的團隊從「大語言模型」轉向「實體世界模型」,這被視為一次「巨大跳躍」。為了訓練這個模型,小鵬投入了近 1 億支影片片段(相當於 6.5 萬年駕駛場景),並依託三顆自研「圖靈」晶片(峰值算力 2250 TOPS)及 3 萬張阿里雲卡組成的算力集群,實現了「五天全鏈路迭代一次」的高效率開發。
技術突破帶來的應用與影響
第二代 VLA 的技術升級直接轉化為使用者體驗的躍升。它將支援「小路 NGP」,貫通高速、城市與園區,並適配歐洲路況。「無導航自動輔助駕駛」Super LCC、「理解紅綠燈」、「招手即停」等功能,讓輔助駕駛從「技能包堆砌」走向「類人本能」。更重要的是,小鵬宣布開源第二代 VLA,並與福斯深化合作,推動技術落地至大眾車型。