![]()
撰文|常 笑
編輯| 張 南
設計|甄尤美
1903年,霍拉肖·杰克遜和蘇厄爾·克羅克駕駛著簡陋的汽車,在泥濘與荒野中掙扎了整整63天,終于從舊金山抵達紐約。彼時,這場駕車橫穿美國的艱難跋涉,只為向世界證明汽車不是“曇花一現的消遣玩物”。
時隔122年后,相似的路線被賦予了全新的意義。2025年底,歷時2天零20個小時,跨越2732.4英里(約4397公里),坐在特斯拉Model 3里的大衛·摩斯,在全程無接管的情況下,達成了首次憑借智能駕駛技術橫穿美國的壯舉。
![]()
這場看似科幻的現實演繹,不僅是汽車工業的百年進階,更是自動駕駛行業經歷的一場跨越式變革。
剛剛過去的2025年,自動駕駛行業沒有迎來所謂“技術終局”的大一統,反而陷入了更激烈的路線突圍戰。當單純的端到端大模型遭遇長尾場景的瓶頸,一場集體押注“認知智能”的競速由此引爆,并一路燒至2026年。
在這場博弈中,各方角力的落點,都指向了同一個神秘代號——VLA(Vision-Language-Action,視覺-語言-動作模型)。
大洋彼岸,特斯拉在FSD V14版本引入類VLA多模態增強模塊,通過增強邏輯泛化能力解決“直覺駕駛”的不可知性;而英偉達在美國CES 2026上更是連新卡都不發了,反手直接開源基于VLA的推理模型Alpamayo 1,其創始人黃仁勛更是稱其為“世界上首款能思考、能推理的自動駕駛汽車AI”。
視線回到中國,產業回應更為迅猛。地平線、元戎啟行等供應商紛紛亮出成熟方案,理想、吉利、奇瑞、長城等車企密集開啟了VLA的量產競速。
![]()
3月2日,小鵬汽車正式發布其所謂的第二代VLA,并將戰火推向了新的維度。根據官方介紹,這是全球首個量產級物理世界大模型,核心是去掉了語言轉譯環節,實現視覺直出動作的端到端決策。
年初,小鵬汽車董事長、CEO何小鵬曾將2026年定義為中美自動駕駛元年。而在此次會上,何小鵬更是放話說:“小鵬第二代VLA將開啟自動駕駛的DeepSeek時刻,最快1年就能實現完全自動駕駛。”
一片喧囂之下,當VLA加速從實驗室走向量產,自動駕駛行業的底層游戲規則正在被悄然改寫。
![]()
中美競速,VLA緣何大火
故事的起點,其實源于一場行業集體的“迷航”。
時間倒回到三年前,特斯拉FSD V12橫空出世,用“端到端”的暴力美學震驚了世界,它徹底拋棄傳統模塊化與硬編碼規則,代碼量從30萬行銳減至2000行。這種用統一神經網絡直接將攝像頭像素映射為方向盤轉角的“直覺駕駛”,一度被視為行業的終極答案。
中國車企與供應商也迅速跟進,卷入這場名為“端到端”的軍備競賽。彼時的共識簡單而粗暴:似乎只要把感知、規劃、預測全部塞進一個巨大的神經網絡,奇跡就會發生。
然而,隨著2024年末特斯拉FSD V13的推送,行業遭遇了當頭一棒。盡管特斯拉將算力堆到了極致,模型參數量相比V12提高了三倍,但那個“黑箱”依然會時不時出問題,不斷出現的低級失誤直接擊碎了“端到端萬能”的幻想。
這時候,行業開始意識到:端到端雖然在信息傳遞效率上做到了極致,規避了模塊化端到端信息熵減的弊端,但它本質上還是一個巨大的概率擬合器。其展現出的強大直覺,也仿佛只得到了身體,卻沒能得到靈魂。當面對那些從未見過的長尾場景時,這個“黑箱”內部發生了什么、會產生什么決策,沒有人知道。
這種缺乏可解釋性、邏輯推演能力的特性,成為橫亙在L2輔助駕駛與L4完全自動駕駛之間一道難以逾越的天塹。就在大家都在這個“直覺陷阱”中苦苦掙扎時,VLA多模態架構的出現,恰好踩中了這個痛點。
![]()
其實,早在2023年7月,谷歌DeepMind就推出了基于VLA架構的RT-2模型,讓機器人具備了驚人的零樣本學習能力。遺憾的是,由于聚焦低速封閉場景,它在當時并未引發自動駕駛圈的躁動。
但當純端到端路線顯露出瓶頸后,VLA的價值開始被重新發掘:自動駕駛行業迫切需要為車輛植入“認知”能力。
2025年10月,特斯拉自動駕駛副總裁阿肖克·埃盧斯瓦米(Ashok Elluswamy)的一張PPT,意外揭開了FSD V14的底牌:特斯拉正在“悄悄”引入類VLA的多模態模型,試圖用“思維鏈”破解黑箱的低級錯誤。
這一信號,也瞬間被中國自動駕駛軍團敏銳地捕捉到了。何小鵬在親赴北美體驗后,發出了那句著名的感慨:“FSD V14和特斯拉Robotaxi已經沒有區別,L2和L4可以用同一套系統實現。”這不僅僅是感嘆,更是一種“找對了”的釋然。
![]()
前理想汽車自動駕駛研發高級副總裁郎咸朋更是直接定調:“如同端到端結合數據閉環取代了原來的規則算法研發范式一樣,VLA結合強化學習將會成為智能駕駛新的護城河。”
為什么中國車企會有如此強烈的共鳴?因為在VLA架構的加持下,中美雙方的前沿技術第一次站在了近乎同一起跑線上。
2025年初,小鵬與理想幾乎在同一時間遭遇了端到端的天花板——系統泛化性增強,卻始終無法觸及真正的自動駕駛邏輯。“我們決定將蓋了一大半的房子推倒,重搭地基。”何小鵬在測試了新一版系統后,決定直接轉型VLA這樣的端到端自動駕駛方案。
![]()
而理想汽車董事長兼CEO李想也在推出端到端1000萬Clips版本后,決定加快交付VLA,不能繼續在原有的路徑上死磕。在他們看來,如果系統沒有思考能力,無論堆多少數據,都無法抵達L4。
那么,特斯拉也好,小鵬、理想也罷,為何中美頭部玩家會如此默契地集體轉向VLA?
首先是技術底層邏輯的質變。
VLA的核心邏輯,是在傳統的視覺和動作之間,插入了一個語言模型(L)。這個簡單的插入,卻質變了系統的處理方式:它讓車輛開始學會像人類司機一樣靠“預判與經驗”開車,而不是單純地靠肌肉記憶“背交規”。
![]()
在這個架構下,當攝像頭看到路邊一個穿著反光背心的人揮手,端到端模型可能還要靠海量數據去猜測該不該停,而VLA模型會將畫面轉譯為“前方有施工員指揮交通”,結合內置的駕駛常識進行邏輯推演,再決定減速繞行。
簡言之,傳統端到端只有見過的場景才會;VLA這樣的端到端,靠語言常識,沒見過的場景也能推理。很顯然,這種從“直覺”到“認知”的躍升,正是解決當下長尾問題的鑰匙。
其次是商業落地的現實倒逼。
隨著L2+輔助駕駛在量產車上的全面普及和下放,單純的功能比拼已經到了盡頭,頭部企業原本引以為傲的差異化優勢正被快速抹平。如今的用戶不再滿足于“能開”,而是苛刻地要求“好開”。
但在現有的端到端能力下,要解決那最后1%的長尾難題,所需的數據成本和算力成本正呈指數級上升,帶來的邊際效益卻在遞減。
對于車企而言,急需一種更具性價比、更泛化的技術方案來突破體驗的天花板。而VLA通過引入常識推理,能夠用邏輯能力彌補極端數據的不足,無疑是在當下算力與數據邊界下,打通體驗躍遷的捷徑。
更為重要的是,VLA的出現正在重塑L2與L4的行業估值邏輯。過去,輔助駕駛(L2)與完全自動駕駛(L4)被視為兩個割裂的市場:L2靠賣車賺錢,L4靠Robotaxi運營賺錢,兩者的技術棧也完全不同。
![]()
但VLA架構的出現打破了這種割裂:一套具備認知能力的多模態模型,可以同時覆蓋量產車和Robotaxi,甚至還能同步泛化到人形機器人等更多終端。這意味著,車企未來可以用同一套技術底座,“通吃”多個萬億級市場。
對于資本市場而言,這不僅極大降低了研發的沉沒成本,更讓L4的落地時間表從遙遙無期變得清晰可見。
同濟大學汽車學院教授朱西產指出,智能駕駛行業已跨越早期認知與市場鴻溝,用戶接受度發生了從“可選”到“必選”的轉變,當前行業核心挑戰已轉變為:在用戶基礎確立后,如何向更高階的自動駕駛演進并實現盈利。
基于此,《汽車商業評論》認為,VLA的意義,不僅在于它提升了端到端模型的“可解釋性”,更在于它為行業找到了一個既能兼顧當下體驗,又能通向未來L4的清晰商業閉環。
這才是過去一年,眾多頭部玩家都積極投身這場VLA競速的根本原因。
![]()
幾種路線,誰更接近“未來”
如果說三年前自動駕駛行業還處于Gartner技術曲線的“低谷期”,那么行至2026年,行業的水溫已徹底改變。
一場前所未有的資本“回血”與上市潮,正在為此刻的沖刺加注燃料。2月2日,Waymo宣布獲得高達160億美元(約合人民幣1110億元)的戰略投資,投后估值逼近萬億大關。
視線轉回國內,2025年11月6日,文遠知行和小馬智行同日登陸港交所,分別成功募集23.9億港元與77億港元;隨后,希迪自動駕駛也成功上市,成為首家專注商用車智能駕駛的港股公司。此外,滴滴自動駕駛、哈啰Robotaxi也相繼完成大額融資。
資本市場的回暖,意味著行業已經熬過了最艱難的“死亡之谷”。
![]()
元璟資本管理合伙人劉毅然對此感觸頗深:“經歷過這一輪行業周期后,如今我們能看到,自動駕駛實際落地效果實現了從量變到質變,技術范式也迎來大幅升級,新的AI框架持續迭代,行業終于迎來了規模最大、爆發力最強、周期最長久的上行周期。”
這一次,不管是投資人、從業者還是普通消費者,都開始相信自動駕駛的落地已成定局,如今只剩時間問題。
但VLA的強勢入場,也并不意味著自動駕駛行業就此形成單一技術路徑的共識。恰恰相反,在AI大模型賦能下,自動駕駛圈的路線分野比任何時候都要更加激烈且微妙。
目前,行業在“端到端”的大共識下,逐步分化出三個派別:以元戎啟行、理想、小鵬為代表的“VLA派”,以華為、蔚來為代表的“世界模型派”,以及Momenta、地平線等供應商的“一段式強化學習端到端”。
這三條路線,不僅是代碼架構的不同,更是各家企業對“如何理解世界”的三種回答。
眼下風頭最盛的,無疑是VLA路線。這一派別主張,VLA能解決純端到端“死記硬背”視頻片段、缺乏底層邏輯的短板,賦予車輛處理長尾場景的泛化能力。
以元戎啟行為例,其能在2025年10月拿下第三方智駕市場近四成的份額,核心就在于這種方案的“可解釋性”與“高擬人度”。
![]()
更為現實的誘惑在于數據飛輪效應。對于手握巨大用戶基盤的主機廠而言,車賣得越多,真實語料和駕駛數據就越多。這種“先落地、再迭代”的戰術,能讓VLA模型以驚人的速度進化,遠比“直指L4”更具現實意義。
然而,在風光的表象之下,VLA的“問題”同樣不少。其核心癥結就在于:將視覺感知轉譯為語言,再由語言轉譯為動作,這中間的“翻譯損耗”究竟有多大?
要知道,語言天生存在模糊性,而這對于需要在毫米級空間中做精確運動的汽車而言,是致命的。
“放鹽少許”在廚房是藝術,在自動駕駛系統里卻是災難。
在華為智能汽車解決方案BU CEO靳玉志看來,這不僅是畫蛇添足,更是舍本逐末,“華為不會走向VLA的路徑,這樣看似取巧,其實并不是走向真正自動駕駛的路徑。華為更看重WA(World Action),中間省掉language這個環節,通過信息輸入直接控車”。
![]()
因此,面對VLA的“語感”流,華為和蔚來選擇了他們認為更硬核的WA(世界模型)路徑。在他們看來,VLA依然是基于經驗的“概率預測”,而非真正的“因果推演”。
華為提出的“WEWA”架構,旨在構建一個可計算的物理引擎,讓智駕系統通過云端模擬數據構建一個“數字孿生世界”,從而實現對真實世界的深度理解。
與VLA的“從數據到決策”不同,WA試圖讓系統“先理解世界,再作出決策”,這種思路被不少專家視為智駕的“終極答案”。
這種思路的優勢在于“可驗證性”。通過這種對物理世界的深度建模,車輛做出的決策不再是基于“常識”,而是基于“懂物理”。
但這無疑也是一場豪賭,構建一個高保真的物理世界模型,其訓練代價是天文數字,這不是一般玩家玩得起的游戲。
就在VLA與WA激辯正酣之時,Momenta、地平線等供應商的“一段式強化學習端到端”路線,卻在悄然攻城略地。
這條路沒有那么多花哨的概念,不談“思維鏈”,也不談“物理引擎”,它追求的是極致的“黑盒”直覺。
它是通過海量的數據投喂和強化學習,讓模型直接建立從感知到動作的映射,更像是在訓練人類的“下意識反應”——老司機在緊急避讓時,是不會先背誦物理定律的,肌肉記憶比邏輯推理更快。
![]()
Momenta之所以能在2025年拿下61.06%的第三方供應商份額,正是因為這種方案在覆蓋多價位區間時,展現出了極高的泛化能力和成本優勢。
在《汽車商業評論》看來,這三條路線的本質博弈,實際上是時間與空間的置換:VLA派追求短期未來下的體驗極致,世界模型派追求通往L4級的終極安全,而一段式端到端則追求當下的“利益最大化”。
若以2026年為分水嶺,局勢依然充滿變數。但變數之外,更有可能的是三者之間開始呈現“融合進化”的趨勢。
有業內專家表示,現在行業仍處于模式的探索期,很多企業大概率不會“一條道走到黑”。
我們越來越多地看到,有的企業利用世界模型生成的高逼真虛擬數據,來反哺VLA的訓練;有的嘗試在端到端架構中嵌入世界模型模塊,以補強長時預測能力。
![]()
比如,小鵬就在其最新的VLA 2.0架構中,嘗試突破傳統VLA依賴語言轉譯的路徑,構建了以物理世界模型為核心的端到端架構,直接實現視覺信號到駕駛動作的生成,從而彌補了早期VLA因語言轉譯導致的信息損耗、延遲和數據使用效率低的短板。
據介紹,小鵬第二代VLA的突破并非單點能力升級,而是遵循L4能力等于“模型x算力x數據x本體”的規模法則。在保障安全與穩定性的基礎上,該系統響應延遲率降低80%,推理效率提升12倍,綜合行車效率提升23%。
對此,小鵬汽車通用智能中心負責人劉先明表示:“自動駕駛的本質是AI問題,AI的規模法則同樣適用于物理世界模型。”
說白了,大家都在互相抄作業,取長補短。這更像是一場融合進化,而不是單純的路線淘汰賽。
回看過去幾年,從“重地圖”到“無圖”,從模塊化到端到端,行業的風向從未停止過劇烈搖擺。
輕舟智航CEO于騫更是做出預判:“無論是VLA還是世界模型,都不會是自動駕駛的終極答案,未來必有新的技術誕生。”
在探索未來的過程中,技術的演進邊界正在從算法層面向整車系統層面延伸。吉利聯合千里科技在CES2026上發布的WAM(World Action Model)世界行為模型,便不再局限于單一派別的優劣之爭,而是嘗試構建一個統一的“整車大腦”。
![]()
WAM打破了自動駕駛、座艙、底盤等各個域之間的物理壁壘,試圖把“世界模型”的理解力與“VLA”的執行力合二為一。
吉利將其比作“大腦+小腦”的協同:WAM像經驗豐富的老教練利用世界模型宏觀決策,而車端VLA則像敏捷的小腦負責精準執行。
這種從“算法融合”向“整車系統融合”的跨越,或許不失為一種新的解題思路。但要實現這一步,需要全棧自研的底氣與對整車架構的掌控力,這注定并非所有玩家都能走通的路徑。
對于大多數企業而言,當下的競爭依然務實且殘酷。歸根結底,不管技術名詞怎么變,有一個硬指標是繞不開的。誰能率先在成本、安全與體驗這個“不可能三角”中找到平衡點,誰就能率先定義真正的“未來”。
![]()
2026年,通往L4前的落地搶灘
當埃隆·馬斯克拋出那句“實現安全無監督自動駕駛需要100億英里訓練數據”時,行業早已不是單純的算法競賽,而是一場拼算力、拼數據的“規模戰”。
中汽協最新報告顯示,2025年前11個月,全國配備城市NOA功能的乘用車銷量達312.9萬輛,占總上險量的15.1%,較2024年全年提升5.6個百分點。報告預計,到2030年城市NOA將成為輔助駕駛主流功能。2026年,智能駕駛行業將進入普及關鍵期,面臨核心技術攻堅挑戰。
很顯然,在數據狂歡的背后,是一場關于生存資格的殘酷洗牌。誰能更好地服務用戶、解決實際問題,誰將在競爭中勝出。
有頭部廠商預測,2026年中國具備高階自動駕駛能力的車型,年銷量有望沖擊500萬臺量級。這意味著,無法提供可用城區NOA的車企,將直接失去這塊巨大的增量市場。
因此,擺在很多主機廠面前的,是一道殘酷的選擇題:是死磕自研,還是尋求外供?
從目前來說,在AI大模型的“加持”下,自研的門檻正在被無限拔高。組建團隊、訓練泛化性強的模型、跑通數據閉環,這不僅是一個漫長的周期,更是一場金錢的馬拉松。
有車企透露,僅訓練VLA模型所需的算力卡采購,每年就高達數億元,這還不包括人員薪資與運維開銷。
因此,對于大多數腰部車企,甚至部分頭部車企來說,與其在自研的無底洞里豪賭,不如擁抱成熟的供應商方案。
![]()
像華為、Momenta、地平線、元戎啟行等廠商,之所以能在這個階段拿下大量訂單,核心就在于它們不僅能提供不輸于自研的算法能力,更能通過極致的工程優化,把高階自動駕駛打進15萬甚至更低價位的車型中。
與此同時,在國際巨頭的棋局里,一場關于生態控制權的爭奪也悄然改變著戰局。2026年CES上,英偉達開源了名為Alpamayo 1的思維鏈推理VLA模型。這款模型專為增強自動駕駛決策能力設計,可供汽車開發者調優、蒸餾,以成為其完整輔助駕駛技術棧的核心基礎。
目前,包括Lucid、捷豹路虎、Uber和伯克利DeepDrive等企業,均展現出對Alpamayo的極高關注,希望開發基于推理的自動駕駛堆棧,以實現L4級自動駕駛。
![]()
英偉達的邏輯也十分清晰:通過開源基座模型,讓車企能夠快速搭建起一套具備“及格線”能力的自動駕駛系統,從而牢牢鎖定Thor芯片的算力生態。
對于急于落地、渴望縮短研發周期的車企而言,這無疑是難以拒絕的誘惑,但也意味著在核心技術路徑上被供應商深度綁定的風險。
很顯然,對于車企而言,2026年的落地策略將不再是簡單的技術比拼,而是資源整合與選擇的藝術。
頭部“新勢力”與華為系車企,將繼續通過全棧自研掌控數據閉環的每一個環節,以此構建差異化壁壘;而傳統轉型車企與新晉品牌,則會更多選擇“強強聯合”——在采購供應商高性價比方案的同時,保留自研團隊進行聯合調優與數據反哺。
毫無疑問,2026年,自動駕駛行業的較量將前所未有的激烈。這不僅是主機廠自研與供應商方案的PK,也是供應商之間的角逐,更是一場中國自動駕駛軍團與特斯拉FSD之間關于速度與極限的全球競賽。
![]()
2026年,這場競速的“終局預演”,已隨著特斯拉FSD的入華提速,從硅谷的測試場直接搬到了中國的城市道路上。
1月23日,馬斯克在達沃斯世界經濟論壇上公開表態,特斯拉滿血版FSD最早將于2月份獲得中國監管批準,正式進入中國市場。
盡管當下自動駕駛遠未抵達終點,但必須承認,特斯拉依然是目前最接近那個“正確答案”的玩家。
當FSD的公測倒計時已經開啟,這場全球競賽也將從大洋兩岸的隔空較量,變成中國城市街頭的貼身肉搏,一個無法回避的問題擺在整個行業面前:我們與特斯拉的差距,究竟還有多遠?
卓馭CEO沈劭劼在新近一次采訪中給出了一個相對量化的行業基準:“我們現在與特斯拉的距離,已經從最初的三年縮短到一年時間。”這意味著,隨著技術路線回歸同一起跑線,競爭的核心已不再是底層的代差,而是工程落地的效率與數據閉環的轉速。
![]()
更直觀的對比來自2025年底的一場“賭約”。何小鵬在親身體驗了FSD V14之后,與自家自動駕駛負責人劉先明定下賭局:
如果在2026年8月30日,小鵬的VLA模型在國內能達到FSD V14.2在硅谷的運行效果,何小鵬將在硅谷研發中心籌建一座中國風味食堂,若未能實現,劉先明則需在金門大橋裸奔。
這看似是一場充滿硅谷極客色彩的戲謔賭約,實則是中美頭部玩家在技術認知上的一次正面“對表”。
至于賭約的輸贏,何小鵬并沒有多費口舌,而是直接在會上向全行業喊話:“車已到門店,歡迎來試,盡管對比!”劉先明也當場表態,稱第二代VLA是小鵬在全球自動駕駛元年,給出的“中國答案”。
這并非盲目的樂觀,而是基于架構同源后的理性預估。中國擁有全球最復雜、最稠密的交通場景,反而為訓練VLA的語言推理能力提供了天然沃土。
在何小鵬看來,在這場科技變革中,中國在政策環境、硬件基礎和軟件能力等底層條件上都具備非常好的優勢,這對走VLA路線的企業是一個巨大的機遇。
![]()
基于此,何小鵬給出了一個相當激進的預判:完全自動駕駛將在未來1-3年內完全到來,真正成為人們的日常出行習慣。
而這場競速,也不再是誰先抵達終局,而是誰先在復雜場景中定義終局。
《汽車商業評論》期待在不久的將來,當一輛中國自動駕駛車能夠從容應對全球最復雜的路況,完成一場無接管穿越中國的壯舉時,那將不僅是一段物理距離的跨越,更是中國自動駕駛軍團真正加冕的時刻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.