小鵬第二代 VLA 大模型如何透過「拆掉語言層」來實現技術突破？

Answer

小鵬第二代 VLA 大模型技術突破：拆解語言層的意義

小鵬汽車在第七屆科技日上，展示了其在 AI 技術上的階段性成果，其中第二代 VLA（視覺—語言—動作）大模型成為焦點。該模型的核心突破在於「拆掉語言層」，這與傳統 VLA 模型需要經過「視覺→語言→動作」的兩次轉譯不同，新模型能夠更直接地理解真實世界，減少延遲和資訊損耗。

技術細節與訓練過程

小鵬汽車透過重構底層的「物理世界模型」，實現了這一技術跨越。為了訓練此模型，他們投入了近 1 億支影片片段，相當於 6.5 萬年的駕駛場景數據。此外，還依託三顆自研「圖靈」晶片（峰值算力 2250 TOPS）及 3 萬張阿里雲卡組成的算力集群，以達成「五天全鏈路迭代一次」的高效率開發。

實際應用與未來展望

這項技術升級將直接轉化為使用者體驗的提升。第二代 VLA 將支援「小路 NGP」，貫通高速、城市與園區，並適配歐洲路況。「無導航自動輔助駕駛」Super LCC、「理解紅綠燈」、「招手即停」等功能，讓輔助駕駛從「技能包堆砌」走向更接近人類本能的操作。小鵬汽車還宣布開源第二代 VLA，並與福斯深化合作，推動技術落地至更多車型。

觀看原始文章