小鵬第二代VLA，一部最新的「物理AI啟示錄」

2026-03-06 22:07:57　來源: RoboX

北京舉報

分享至

2025年底，卡耐基梅隆大學教授、AI2研究科學家Tim Dettmers在博客中指出：“當前AI領(lǐng)域的創(chuàng)新多基于現(xiàn)有思想的漸進修補，技術(shù)架構(gòu)的觀念空間不斷萎縮。我們或許正站在技術(shù)進步的臨界點，面臨創(chuàng)新上限的嚴峻挑戰(zhàn)。”

同一時間，何小鵬正在硅谷體驗FSD V14。在發(fā)現(xiàn)該版本已經(jīng)進化為「完全不一樣的物種」后，他意識到，自己狂砸數(shù)十億研發(fā)的基座模型是最值得的賭注——因為只有采用全新的物理世界模型架構(gòu)，才能捅開已經(jīng)觸手可及的天花板。

3月2日，被小鵬定位為「物理世界基座模型」的第二代VLA，宣布將于本月正式開啟推送。該模型實現(xiàn)了大膽重構(gòu)——扔掉了「L」拐杖，也就是去掉了語言轉(zhuǎn)譯環(huán)節(jié)，首次實現(xiàn)從視覺信號到動作指令的端到端直接生成

「基座模型」具身智能行業(yè)常被提及，這也是玩家們極力挖掘的護城河。而小鵬的第二代VLA，不僅重構(gòu)了范式，還實現(xiàn)了工程化落地和規(guī)模化驗證。

在RoboX近80公里的城區(qū)測試中，第二代VLA不僅全程無需人工介入，而且行為高度擬人甚至優(yōu)于人類司機，全程沒有出現(xiàn)急剎頓挫，確實刷新體驗上限。

這種已經(jīng)開始「涌現(xiàn)」的能力，也將應用于小鵬的機器人、飛行汽車等智能體上。

根據(jù)小鵬汽車董事長兼CEO何小鵬、以及小鵬汽車通用智能中心負責人-劉先明的深入解析，我們會發(fā)現(xiàn)第二代VLA代表了物理AI的幾點最新變化，這些變化有的已成為新的共識，有的則打破了普通人對于大模型發(fā)展的傳統(tǒng)認知。

通用基座」才能救自動駕駛

如今，劉先明的Title已經(jīng)由「自動駕駛負責人」變?yōu)椤竿ㄓ弥悄苤行呢撠熑恕埂?/p>

何小鵬稱，這是跨域融合進程中的一部分：不重構(gòu)完整模型架構(gòu)，就無法實現(xiàn)高級自動駕駛突破和物理AI發(fā)展。如今小鵬正在構(gòu)建底層通用能力體系，以實現(xiàn)代際差。

他堅信，3-5年內(nèi)所有汽車都會成為全域融合的超級智能體；1-3年內(nèi)，全自動駕駛也會落地。

“小鵬不再專研自動駕駛、而是要創(chuàng)建物理AI體系。如今小鵬的基座模型會先在汽車領(lǐng)域的第一步落地，但未來也會在智能座艙、機器人和飛行器上應用。”何小鵬說道。

劉先明稱，第二代VLA的底層復用能力還是很強的，因為該基座模型的設計是原生多模態(tài)，不會只針對自動駕駛，而是可以復用的。

他認為，自動駕駛的技術(shù)范式已經(jīng)發(fā)生了很大的變化，Waymo等幾家采用規(guī)則算法的L4公司，上限已經(jīng)觸手可及，大家只能不停的去往前去卷。

“L4一直受限于ODD，其技術(shù)路線成本極高、并且泛化性很差。而如果真想泛化性解決整個問題，技術(shù)范式就一定要變，這是不可避免的。”

他指出，做好基座模型，是一家做L4公司的必修課，因此Waymo也在做基座模型。但能否成功還得看它到底有沒有決心投入，以及多快能完成轉(zhuǎn)型。

從「預測詞匯」向「預測物理狀態(tài)」轉(zhuǎn)移

劉先明表示，相比起數(shù)字世界，物理世界的任務難度呈指數(shù)級上升。因為其輸入信號不僅信息量大，而且是非結(jié)構(gòu)化的。

“它是連續(xù)信號，不像離散的文字可以拆解，處理起來尤為困難。更別提物理世界那千變?nèi)f化的交互方法和無限的多樣化場景。”

為此，小鵬第二代VLA架構(gòu)被打造為原生多模態(tài)物理世界模型，并采取了以下優(yōu)化措施：

1、針對處理連續(xù)信號及多模態(tài)信號的問題，小鵬設計了原生多模態(tài)tokenizer作為信號處理單元，以更高效率、更嚴謹?shù)姆绞秸纤行盘枺⒃谠缙陔A段避免單一模態(tài)偏差；
2、針對物理世界的復雜性，小鵬構(gòu)建了長序列、高效率的推理邏輯，即設備推理的CoT（思維鏈）機制。為確保實時性，小鵬將整體推理效率提升了32倍；
3、至于輸出多模態(tài)能力，該模型可生成視頻、音頻及動作行為。這不僅代表了第二代VLA的基礎技術(shù)突破，更是仿真、強化學習等領(lǐng)域的創(chuàng)新實踐。
4、艙駕一體，讓整車更像有機的智能體。

同時我們注意到，一篇被AAAI2026錄用的論文也在近期引發(fā)熱議。這是由北大計算機科學學院多媒體信息處理國家重點實驗室與小鵬汽車聯(lián)合創(chuàng)作的論文，它針對VLA處理圖像超高計算量問題，提出了視覺token剪枝框架FastDriveVLA。這一技術(shù)也已應用于小鵬第二代VLA。

該框架采用基于「重建」的對抗性前景-背景重建策略，它能夠使模型像人類駕駛員一樣，自動過濾無關(guān)緊要的視覺信息，只關(guān)注有用的核心信息。這一方法不僅顯著提升了模型的推理效率，還保持了駕駛性能的穩(wěn)定甚至提升。

在nuScenes數(shù)據(jù)集測試中，剪掉25%視覺token，駕駛性能幾乎不變且部分指標提升；剪掉50%，各項指標均衡。同時，F(xiàn)LOPS降低近7.5倍，計算量銳減；CUDA延遲上，prefill和decode階段耗時分別減少3.7倍和1.3倍，推理效率顯著提升。

專用芯片深度定制

據(jù)悉，小鵬根據(jù)芯片和編譯器去重新定義和設計了底座模型的基本結(jié)構(gòu)，也就是圖靈結(jié)構(gòu)。正是因為有了這三方面的聯(lián)合優(yōu)化，使得大模型在車端應用的效率提升了12倍。

AI芯片的兩個基本操作是訪存+計算，其中計算的占用密度越高，就意味著算力的利用率越高。

劉先明曬出了通用芯片和圖靈芯片的效率對比，指出「圖靈芯片深度定制+編譯器聯(lián)合優(yōu)化」這種模式，比「通用芯片+開源模型」的效率提升了4倍左右，達到了82.5%。

他指出，以「有效算力=名義算力×算力利用率」的公式來看，一顆圖靈芯片的名義算力約相當于3顆Orin-X，而經(jīng)過了聯(lián)合優(yōu)化后，一顆圖靈的有效算力已經(jīng)達到了約10顆Orin-X。

“其實英偉達在GPU和CUDA時代就在做這件事——把算力用好，比單純說算力提升多少倍更有價值。這也是我們從通用處理器向?qū)Ｓ锰幚砥鰽SIC過渡的原因。”

另外，大算力一定需要更高信息密度的輸入、更大的模型來匹配，否則算力就是空轉(zhuǎn)。

總而言之，如果只是搞算力軍備競賽、單純堆高數(shù)值，消費者是感受不到明顯的體感提升的。

卷GPU

更要卷云端運行效率

在模型訓練層面，人們往往過于關(guān)注單卡GPU，而忽略了云端算力集群運行效率。

如今，小鵬汽車已建成國內(nèi)領(lǐng)先的3萬卡規(guī)模算力集群，算力儲備達到10EFLOPS。

同時需要注意的是，該算力集群利用率常年高達90%以上，高峰時期的運行效率甚至達到98%。而且這套「云端模型工廠」涵蓋了基座模型預訓練和強化學習、模型蒸餾、車端模型預訓練到部署上車的完整生產(chǎn)鏈路。

同時，小鵬汽車自主開發(fā)了底層的數(shù)據(jù)基礎設施，使數(shù)據(jù)上傳規(guī)模提升22倍、訓練中的數(shù)據(jù)帶寬提升15倍。

“基于強大的AI Infra，從去年11月發(fā)布會科技發(fā)布會到現(xiàn)在，我們一共更新了468版模型。”

劉先明表示，從2025年到現(xiàn)在，單GPU訓練效率提升了1010%，單任務訓練效率提升了4360%，GPU硬件利用率提升125%。

汽車銷量不再代表數(shù)據(jù)優(yōu)勢

何小鵬稱，雖然物理世界和人類世界的數(shù)據(jù)量看起來是無限的，可實際上卻遠遠不夠。

“很多人說車賣得越多，數(shù)據(jù)優(yōu)勢就越高，這是片面的。如何收集有質(zhì)量、有價值、超大規(guī)模的數(shù)據(jù)，這是非常困難的。不論是汽車還是機器人，這件事上都遠遠沒有看到頭，模型訓練還沒出現(xiàn)明顯的收斂趨勢。”

劉先明介紹稱，數(shù)據(jù)一般是指Token，高質(zhì)量的Token越多，模型的性能和泛化性一般會越強。

通過不斷上傳的真實世界高質(zhì)量數(shù)據(jù)，小鵬已經(jīng)積累了超過50PB的訓練數(shù)據(jù)。目前每一個版本的模型訓練數(shù)據(jù)達到了4萬億個tokens，這些都是第二代VLA的核心能力來源。

在去年的CVPR演講中，劉先明表示，小鵬在云上訓練了從10億到720億參數(shù)的多個模型，累計吃下了數(shù)千萬條視頻片段。

但是，如何挖掘真實世界里真正好用的數(shù)據(jù)，卻一直是行業(yè)難題——數(shù)據(jù)每天都在被收集，但存儲成本高，而且很多也用不上。

不過，小鵬車端攝像頭所采集到的高分辨率數(shù)據(jù)，數(shù)量可達每秒鐘53億字節(jié)的視覺數(shù)據(jù)，遠超其他傳感器所能提供的信息量，信息密度是其他傳感器的300倍左右。

同時他也表示，搭載小鵬第二代VLA的20萬輛車日均消耗58.8萬億Tokens，約等于全國數(shù)字Al Token日調(diào)用量（0.737萬億Tokens）的80倍。

這說明物理世界確實比數(shù)據(jù)世界更加復雜，前者數(shù)據(jù)密度對于算力的消耗更是巨大，如果沒有一個強大的算力和數(shù)據(jù)處理體系作為基礎，就不可能做好高階智能駕駛。

在此背景下，世界模型的仿真測試發(fā)揮了重要作用：在過去的一年當中，小鵬仿真的case的數(shù)量從3萬多增加到50萬多；一天的測試當量相當于去跑3000萬公里的測試。

強化學習不是「萬金油」

據(jù)劉先明介紹，強化學習依賴無模型獎勵機制，通過試錯學習調(diào)整策略。但在物理世界中，獲取真實反饋面臨挑戰(zhàn)，其核心難點在于難以構(gòu)建與真實環(huán)境完全一致的仿真環(huán)境。

對此，小鵬將世界模型引入強化學習體系，以實現(xiàn)自我學習（self - learning）與自我模擬。從本質(zhì)上講，這類似于構(gòu)建一個可靈活替換的執(zhí)行場景。

“我們借助第二代VLA模型輸出的軌跡信息，引導世界模型重新生成其對周圍環(huán)境的認知與理解。”

也就是說，每當VLA模型基于當前環(huán)境狀態(tài)輸出一個動作，世界模型就會依據(jù)該動作生成一個新的場景描述；隨后，系統(tǒng)獲取大量新的環(huán)境信息以及基于推理得到的數(shù)據(jù)，并以此為基礎進入下一個場景的交互循環(huán)。

正是由于這種動態(tài)交互機制的存在，模型能夠變得越來越強大。

但是，劉先明也強調(diào)了「強化學習不是萬金油」：“現(xiàn)在學術(shù)界、工業(yè)界都給強化學習套上了光環(huán)，覺得它‘可解萬物’。但如果連沒有強大的基座模型，強化學習就無法繼續(xù)提升。”

跳過L3，直奔L4

在何小鵬看來，L3對于硬件軟件、法律法規(guī)都是挑戰(zhàn)。所以他在今年兩會提出的建議是「推動自動駕駛技術(shù)從L2跨越到L4，完善法規(guī)與管理政策」。

劉先明表示，雖然目前還不能說第二代VLA可以100%達到L4水平，但其架構(gòu)已經(jīng)非常通用且高效，每天都會有新的版本出來，不停地在解決新的問題。

“這個進步速度是超過我們想象的，所以我們是有信心在未來的一段時間內(nèi)達到l4水平的完整體系。”何小鵬對此周期的預判是1-3年。

涌現(xiàn)時代已經(jīng)到來

去年，第二代VLA出現(xiàn)了一些「涌現(xiàn)」的行為，也就是未經(jīng)刻意學習的自我進化，例如紅燈即將轉(zhuǎn)綠時的蠕行、或者主動避讓救護車，聽從交警指揮等。

何小鵬舉例稱，部分極端場景，例如廣州曾出現(xiàn)過的珠江漫堤等，絕大多數(shù)人都沒有經(jīng)歷過。但因為系統(tǒng)看過大量類似數(shù)據(jù)，就有可能進化出應對能力。

“第二代VLA模型還會越來越聰明，出現(xiàn)越來越多具備進化能力的CoT。到那個階段，大家會明顯感受到：它既足夠安全，又會展現(xiàn)出一些超出預期的能力。”

但是，這種涌現(xiàn)必須可控，才能保障安全。劉先明指出，雖然涌現(xiàn)本身不是一個嚴格可控的過程，但是做自動駕駛肯定要守住安全底線。為此，小鵬正在通過數(shù)據(jù)篩選、強化學習等方式來進行把控，而他們認為，涌現(xiàn)的整體趨勢一定會是「讓所有人開車越來越舒心」。

通過對第二代VLA的體驗，我切實感受到它已經(jīng)在超越人類司機，根本不需要我做任何介入。此時我才終于理解了何小鵬「首先邀請媽媽們」參加試駕的原因——因為如今我也迫不及待地想讓自己媽媽體驗這種近乎「無感」的智駕科技，而且她也不必再因為「路不熟」而不敢開車去陌生的地方了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.