智駕玩家們,正迎來另一個維度的競爭者。
近日,元戎啟行CEO周光在智能電動汽車發展高層論壇上直言,“大模型公司在多模態領域取得巨大突破后,會將能力落地到自動駕駛場景。畢竟,多模態本質上就是預測物理世界下一刻會發生什么,這僅僅是一步之遙。”
也就是說,“真正的智駕競爭,不再來自同行,而是來自大模型公司的降維打擊。”
從行業數據看,2025年中國輔助駕駛解決方案市場規模已超過1200億元,量產芯片算力提升至750 TOPS級別,但城區NOA滲透率僅15%左右,用戶黏性徘徊在20%-30%區間。
市場規模以千億計,算力以百倍速飆升,但消費者的信任和依賴,并沒有同步到來。
“消費者并沒有把城市輔助駕駛作為日常工具。”周光說。元戎啟行已經累計交付近30萬臺搭載城市NOA功能的量產車,過去一年行駛里程超過13億公里,避免了14.1萬次前向潛在碰撞。
即便擁有這樣堪稱出色的量產數據,周光也要追問,從“可用”到“愛用”,到底還差什么?
他給出的答案是,認知。
在周光看來,當前行業普遍存在“蹺蹺板效應”。同一套小模型智駕系統,早上跑得好,中午可能變差;在上海表現不錯,換個城市就不行;這個版本優化了某些場景,下個版本又可能退步。
這并非個別算法的缺陷,而是小模型范式本身的瓶頸。量產車型上的智駕模型參數量大多在1B以下,甚至0.1B以下,以卷積為主、Transformer架構稀薄,能力邊界已經被物理極限鎖死。
因此,輔助駕駛的下一個戰場,不再是更高分辨率的攝像頭、更大算力的芯片或更密集的路測,而是從“執行系統”向“認知系統”的躍遷。
特斯拉和Waymo已經完成這一轉變,用基座模型驅動整個研發體系。元戎啟行也在這個方向投入了巨大資源,從模型Scaling和數據Scaling兩個方向同步推進,構建40B參數的基座模型,將Driver(駕駛決策)、Analyst(場景理解)和Critic(行為評估)三種能力統一于同一架構。
![]()
對元戎啟行而言,這也是其基于基座模型實現的范式躍遷。
目前,其全流程的數據閉環,提升效率近10倍,從人工驅動的5天周期壓縮至AI Orchestrator驅動的12小時,每一次問題修正也都沉淀為模型能力的持續增長。
而支撐這一切的,是今年年初多模態大模型(尤其是Gemini等模型)的突破。
因此,周光將2026年定義為“多模態進展的元年”。今年的元戎啟行,也從小模型時代進入了大模型時代。
而正因如此,目前大模型公司也在爭相入局自動駕駛,其核心目的并非盈利,而是通過汽車場景提供的海量帶動作(Action)的真實數據,去驗證物理AI的通用能力。“接下來會有更多多模態進展的公司進入這個領域,美國那邊OpenAI等也會有類似動作。”
此外,周光判斷,“物理AI的上半場是自動駕駛,下半場是廚房。”
今年年初,前DeepSeek研發負責人、多模態技術核心研究員阮翀加入元戎啟行,正是因為元戎啟行要做的不是一家傳統的Tier 1供應商,而是一家真正的物理AI公司。
站在2026年這個節點上,周光給出了三組目標:城市NOA量產交付突破100萬輛;MPCI(每關鍵接管行駛里程)提升至1000公里以上;用戶高頻使用率從目前的20%-30%區間提升至50%以上。更長遠的目標是,挑戰萬公里級的MPCI,實現Robotaxi的規模化應用。
以下為周光在論壇期間的群訪實錄(略有調整):
問:最近關于L2、L3、L4的討論很多,歐陽明高院士提到L3可能被跳過,直接到L4。您怎么看?
周光:關于L2、L3、L4,這些定義是30年前研究人員基于當時的技術路線制定的。今天,隨著大模型、端到端、多模態的發展,AI進展非常快,尤其是基座模型的認知能力在提升。我認為大模型會極大加速從L2到Robotaxi的進程——我說的Robotaxi不是過去依賴高精地圖的L4,而是直接從城市NOA邁向Robotaxi。我們看到關鍵指標(如MPCI)每年快速增長,尤其在大模型介入之后。如果每年一個數量級的提升,很快就會突破。
L3的本質是在模型不完美的情況下,通過人工補丁和工程能力去實現。而通用自動駕駛的路徑是提高模型的認知能力,這是兩種不同的思路。今年年初多模態取得突破,我認為城市NOA會快速演進到Robotaxi階段。研究范式已經發生變化,不再靠運營或高精地圖,而是靠基礎認知模型。
![]()
問:年初DeepSeek核心研究員阮翀加入元戎,是靠薪酬還是愿景?他會帶來哪些變化?
周光:阮翀等頂尖人才選擇加入元戎,是因為他們希望經營一家真正的AI公司,而不是以Tier 1的思維做事。元戎的愿景就是物理AI。我們在GTC上談物理AI、之前談端到端,基本上一年后大家都開始講這些話題。這體現了連續性和前瞻性。物理AI的上半場會在車端得到驗證——只有車能提供幾十萬甚至百萬級帶Action的數據。如果在車端都不能驗證,憑什么在機器人領域驗證?
小模型的瓶頸已經很明顯:很難在城市道路上突破100公里的MPCI,蹺蹺板效應非常突出。唯一解決方案是大模型,依靠通用常識和完整的大模型體系。我們今天說的大模型是全方位的大模型,包括GPT-VLA架構、訓練范式的提升,是整個技術棧的下一個臺階。
阮翀主要負責多模態和基座模型,以通用形式解決物理AI問題,而不是用非通用的方式。具體細節大家可以在北京車展上關注我們的公開亮相。最近大廠也有動作,大家可以留意,最有錢的AI公司選擇的第一落地場景都是車,目的不是掙錢,而是驗證物理AI本身,這個驗證比掙錢重要得多。
問:您怎么看待大廠(大模型公司、互聯網大廠)成立自動駕駛部門?為什么是現在這個時間點?
周光:最近一些大廠也下場做自動駕駛,目的不是賺License的開發費用,而是為了物理AI。物理AI的上半場是自動駕駛,下半場是廚房。但第一個能驗證物理AI的場景就是車,因為只有車能提供如此海量的帶動作(Action)的數據,讓你不再有“數據荒”。這也解釋了為什么頂尖人才會加入元戎。文本領域的突破在DeepSeek-R1之后已趨于成熟,接下來是多模態。今年年初Gemini的發布,使多模態對物理世界的理解和規則演繹能力提升了一個數量級,這將極大惠及自動駕駛和機器人。今年是合適的時機,大模型能力將在物理世界真正展現。
根本原因是文本突破之后,大模型的下一步是多模態突破。多模態離物理世界的Agent只有一步之遙。要驗證物理AI,還是那個邏輯:只有汽車場景能提供足夠的數據。機器人的數據量遠遠不夠——本體差異、觸覺、數據采集等原因都導致數據不足。所以大廠選擇在汽車領域驗證物理AI是順理成章的。接下來會有更多多模態進展的公司進入這個領域,美國那邊OpenAI等也會有類似動作。
問:今年年初英偉達開源了一個智駕模型Alpamayo,業內看法不太一致,有人認為很有用,有人認為用處不大。您怎么看?
周光: 本質上這還是多模態的進展。今年最大的變化就是多模態的突破,具體到某個模型的發布不是那么重要。因為去年多模態沒有進展時,強行用大模型做智駕有些勉強。
智駕其實是大模型技術溢出的受益者。自動駕駛領域真的有那么多原創技術嗎?BEV(Bird‘s Eye View)算是智駕領域的一個創造,用比較巧妙的方式解決了靜態感知問題。但端到端不是智駕原創的,大模型的認知、CoT也不是,多模態也不是。
然而,智駕是第一個能在物理世界提供海量數據的場景——今天只有車能提供這么多數據。我們現有小模型并沒有充分利用這些數據,無論是模型能力、訓練方式還是端側算力限制。特斯拉的發展路徑也說明了這一點:從144T到400T再到5000T,AI的趨勢是往前走、往Scaling方向走。
如果按照Tier 1的思路,就是做便宜、反向卷100TOPS,以更低成本實現。這也是一種做法。但頂尖的AI人才不會倒著卷。判斷一家公司是AI公司還是量產公司,就看它是否堅持向前。特斯拉的新車只會裝更新更強的芯片,不會倒回去用3代芯片,盡管3代芯片也已經足夠好。
問:您之前提到元戎追求“溫暖的智能化”,目前公司在這方面有哪些探索和應用落地?
周光:首先,機器具備語音交互能力就是一種“溫暖”。我們從去年開始做相關工作,讓車子不再是冷冰冰的。同時,我們始終把安全放在第一位,不會急功近利地推出半成品,這也是負責任的表現。
問:元戎從最初與Smart等高端品牌合作,到現在與頭部新勢力(如零跑A10)合作下沉到十萬級市場,是不是開始鋪規模了?在這個過程中如何堅持前沿技術?
周光:其實技術路線和商業規模并不沖突。真正的難點在于讓大模型變得更好,而不是把好的模型“蒸餾”到低算力平臺。蒸餾這件事已經很成熟,問題是參數量增加3倍,效果卻沒有明顯變好——這才是今天的問題。
如果你只想拼小算力,那是一條路,可以做蒸餾、做量化,也能實現。但要真正提升體驗,必須讓大的模型變好,這是最難的。一旦你有一個確定的大模型,可以蒸餾到100TOPS甚至30TOPS的芯片上,當然會有一定性能衰減,因為超過模型容量后性能會急劇下降。但難度不在于蒸餾,而在于讓大模型更強。
只要大模型做得好,就一定能適配不同平臺。關鍵是你有沒有更大、更強的模型,而不是只有一個小模型。今天很多稠密小模型仍然依賴非常原始的訓練手段,必須用大模型的范式來做。
![]()
問:已經落地的Robotaxi出現過趴窩、乘客被困的情況,在應急處理方面還需要哪些設計?遠程接管的必要性如何?
周光:Robotaxi最核心的能力是模型能力的提升,其次是運營技巧——哪些問題需要秒級響應、哪些可以分鐘級響應,這是運營體系的事。互聯網大廠非常擅長運營,能夠快速調度不同層級的人員、遠程接管、實體兼容,這個調度網絡本身也有難度。模型能力的提升更重要,不可能靠先驗信息和規則來做自動駕駛。
GPT時代之后,所有人都相信應該由AI驅動。Waymo依托Gemini的人才,也完成了根本性的轉變,包括人才體系、技術體系、范式的變更。不是所有公司都能跨越這個階段,我認為這才是難點。如果還停留在老方法上,不去享受大模型技術溢出帶來的優勢,我會比較擔心。我只是陳述我觀察到的現象,不做具體評論。
問:艙駕一體芯片更適合算力需求較低的中低端車型,高端車型不適用,您怎么看?智能體爆火之后為艙駕一體帶來了哪些新思路?
周光:艙駕一體更多是帶來體驗上的提升。用車過程中,用戶希望車具備交互溝通能力,這帶來的體驗完全不同。一個“啞巴”車是不太合適的。最終一定是“One Brain”,但目前還做不到,還是“Two Brain”。最終要像人一樣,用一個大腦做所有事情。艙駕芯片的融合趨勢也在討論中,未來會有各種模型。
關于艙駕一體芯片的融合趨勢,我只強調一點:你既需要駕駛能力,也需要交互能力。今天的“艙”不應該是一堆按鈕。我看到車上有一排按鈕就很難受,有的車搞了20個按鈕,不知道按哪個,這不是自然的交互。體驗應該是更好的,通過自然語言、表情、多種形式交流,而不是靠“點點點”。
