小鵬第二代 VLA 大模型如何透過「拆掉語言層」來實現技術突破?
Answer
小鵬第二代 VLA 大模型技術突破:拆解語言層的意義
小鵬汽車在第七屆科技日上,展示了其在 AI 技術上的階段性成果,其中第二代 VLA(視覺—語言—動作)大模型成為焦點。該模型的核心突破在於「拆掉語言層」,這與傳統 VLA 模型需要經過「視覺→語言→動作」的兩次轉譯不同,新模型能夠更直接地理解真實世界,減少延遲和資訊損耗。
技術細節與訓練過程
小鵬汽車透過重構底層的「物理世界模型」,實現了這一技術跨越。為了訓練此模型,他們投入了近 1 億支影片片段,相當於 6.5 萬年的駕駛場景數據。此外,還依託三顆自研「圖靈」晶片(峰值算力 2250 TOPS)及 3 萬張阿里雲卡組成的算力集群,以達成「五天全鏈路迭代一次」的高效率開發。
實際應用與未來展望
這項技術升級將直接轉化為使用者體驗的提升。第二代 VLA 將支援「小路 NGP」,貫通高速、城市與園區,並適配歐洲路況。「無導航自動輔助駕駛」Super LCC、「理解紅綠燈」、「招手即停」等功能,讓輔助駕駛從「技能包堆砌」走向更接近人類本能的操作。小鵬汽車還宣布開源第二代 VLA,並與福斯深化合作,推動技術落地至更多車型。