網易首頁 > 網易汽車 > 聲音·訪談 > 正文

周光：物理AI上半場是自動駕駛，下半場是廚房

2026-04-14 14:59:32　來源: 網易汽車

北京舉報

分享至

智駕玩家們，正迎來另一個維度的競爭者。

近日，元戎啟行CEO周光在智能電動汽車發展高層論壇上直言，“大模型公司在多模態領域取得巨大突破后，會將能力落地到自動駕駛場景。畢竟，多模態本質上就是預測物理世界下一刻會發生什么，這僅僅是一步之遙。”

也就是說，“真正的智駕競爭，不再來自同行，而是來自大模型公司的降維打擊。”

從行業數據看，2025年中國輔助駕駛解決方案市場規模已超過1200億元，量產芯片算力提升至750 TOPS級別，但城區NOA滲透率僅15%左右，用戶黏性徘徊在20%-30%區間。

市場規模以千億計，算力以百倍速飆升，但消費者的信任和依賴，并沒有同步到來。

“消費者并沒有把城市輔助駕駛作為日常工具。”周光說。元戎啟行已經累計交付近30萬臺搭載城市NOA功能的量產車，過去一年行駛里程超過13億公里，避免了14.1萬次前向潛在碰撞。

即便擁有這樣堪稱出色的量產數據，周光也要追問，從“可用”到“愛用”，到底還差什么？

他給出的答案是，認知。

在周光看來，當前行業普遍存在“蹺蹺板效應”。同一套小模型智駕系統，早上跑得好，中午可能變差；在上海表現不錯，換個城市就不行；這個版本優化了某些場景，下個版本又可能退步。

這并非個別算法的缺陷，而是小模型范式本身的瓶頸。量產車型上的智駕模型參數量大多在1B以下，甚至0.1B以下，以卷積為主、Transformer架構稀薄，能力邊界已經被物理極限鎖死。

因此，輔助駕駛的下一個戰場，不再是更高分辨率的攝像頭、更大算力的芯片或更密集的路測，而是從“執行系統”向“認知系統”的躍遷。

特斯拉和Waymo已經完成這一轉變，用基座模型驅動整個研發體系。元戎啟行也在這個方向投入了巨大資源，從模型Scaling和數據Scaling兩個方向同步推進，構建40B參數的基座模型，將Driver（駕駛決策）、Analyst（場景理解）和Critic（行為評估）三種能力統一于同一架構。

對元戎啟行而言，這也是其基于基座模型實現的范式躍遷。

目前，其全流程的數據閉環，提升效率近10倍，從人工驅動的5天周期壓縮至AI Orchestrator驅動的12小時，每一次問題修正也都沉淀為模型能力的持續增長。

而支撐這一切的，是今年年初多模態大模型（尤其是Gemini等模型）的突破。

因此，周光將2026年定義為“多模態進展的元年”。今年的元戎啟行，也從小模型時代進入了大模型時代。

而正因如此，目前大模型公司也在爭相入局自動駕駛，其核心目的并非盈利，而是通過汽車場景提供的海量帶動作（Action）的真實數據，去驗證物理AI的通用能力。“接下來會有更多多模態進展的公司進入這個領域，美國那邊OpenAI等也會有類似動作。”

此外，周光判斷，“物理AI的上半場是自動駕駛，下半場是廚房。”

今年年初，前DeepSeek研發負責人、多模態技術核心研究員阮翀加入元戎啟行，正是因為元戎啟行要做的不是一家傳統的Tier 1供應商，而是一家真正的物理AI公司。

站在2026年這個節點上，周光給出了三組目標：城市NOA量產交付突破100萬輛；MPCI（每關鍵接管行駛里程）提升至1000公里以上；用戶高頻使用率從目前的20%-30%區間提升至50%以上。更長遠的目標是，挑戰萬公里級的MPCI，實現Robotaxi的規模化應用。

以下為周光在論壇期間的群訪實錄（略有調整）：

問：最近關于L2、L3、L4的討論很多，歐陽明高院士提到L3可能被跳過，直接到L4。您怎么看？

周光：關于L2、L3、L4，這些定義是30年前研究人員基于當時的技術路線制定的。今天，隨著大模型、端到端、多模態的發展，AI進展非常快，尤其是基座模型的認知能力在提升。我認為大模型會極大加速從L2到Robotaxi的進程——我說的Robotaxi不是過去依賴高精地圖的L4，而是直接從城市NOA邁向Robotaxi。我們看到關鍵指標（如MPCI）每年快速增長，尤其在大模型介入之后。如果每年一個數量級的提升，很快就會突破。

L3的本質是在模型不完美的情況下，通過人工補丁和工程能力去實現。而通用自動駕駛的路徑是提高模型的認知能力，這是兩種不同的思路。今年年初多模態取得突破，我認為城市NOA會快速演進到Robotaxi階段。研究范式已經發生變化，不再靠運營或高精地圖，而是靠基礎認知模型。

問：年初DeepSeek核心研究員阮翀加入元戎，是靠薪酬還是愿景？他會帶來哪些變化？

周光：阮翀等頂尖人才選擇加入元戎，是因為他們希望經營一家真正的AI公司，而不是以Tier 1的思維做事。元戎的愿景就是物理AI。我們在GTC上談物理AI、之前談端到端，基本上一年后大家都開始講這些話題。這體現了連續性和前瞻性。物理AI的上半場會在車端得到驗證——只有車能提供幾十萬甚至百萬級帶Action的數據。如果在車端都不能驗證，憑什么在機器人領域驗證？

小模型的瓶頸已經很明顯：很難在城市道路上突破100公里的MPCI，蹺蹺板效應非常突出。唯一解決方案是大模型，依靠通用常識和完整的大模型體系。我們今天說的大模型是全方位的大模型，包括GPT-VLA架構、訓練范式的提升，是整個技術棧的下一個臺階。

阮翀主要負責多模態和基座模型，以通用形式解決物理AI問題，而不是用非通用的方式。具體細節大家可以在北京車展上關注我們的公開亮相。最近大廠也有動作，大家可以留意，最有錢的AI公司選擇的第一落地場景都是車，目的不是掙錢，而是驗證物理AI本身，這個驗證比掙錢重要得多。

問：您怎么看待大廠（大模型公司、互聯網大廠）成立自動駕駛部門？為什么是現在這個時間點？

周光：最近一些大廠也下場做自動駕駛，目的不是賺License的開發費用，而是為了物理AI。物理AI的上半場是自動駕駛，下半場是廚房。但第一個能驗證物理AI的場景就是車，因為只有車能提供如此海量的帶動作（Action）的數據，讓你不再有“數據荒”。這也解釋了為什么頂尖人才會加入元戎。文本領域的突破在DeepSeek-R1之后已趨于成熟，接下來是多模態。今年年初Gemini的發布，使多模態對物理世界的理解和規則演繹能力提升了一個數量級，這將極大惠及自動駕駛和機器人。今年是合適的時機，大模型能力將在物理世界真正展現。

根本原因是文本突破之后，大模型的下一步是多模態突破。多模態離物理世界的Agent只有一步之遙。要驗證物理AI，還是那個邏輯：只有汽車場景能提供足夠的數據。機器人的數據量遠遠不夠——本體差異、觸覺、數據采集等原因都導致數據不足。所以大廠選擇在汽車領域驗證物理AI是順理成章的。接下來會有更多多模態進展的公司進入這個領域，美國那邊OpenAI等也會有類似動作。

問：今年年初英偉達開源了一個智駕模型Alpamayo，業內看法不太一致，有人認為很有用，有人認為用處不大。您怎么看？

周光： 本質上這還是多模態的進展。今年最大的變化就是多模態的突破，具體到某個模型的發布不是那么重要。因為去年多模態沒有進展時，強行用大模型做智駕有些勉強。

智駕其實是大模型技術溢出的受益者。自動駕駛領域真的有那么多原創技術嗎？BEV（Bird‘s Eye View）算是智駕領域的一個創造，用比較巧妙的方式解決了靜態感知問題。但端到端不是智駕原創的，大模型的認知、CoT也不是，多模態也不是。

然而，智駕是第一個能在物理世界提供海量數據的場景——今天只有車能提供這么多數據。我們現有小模型并沒有充分利用這些數據，無論是模型能力、訓練方式還是端側算力限制。特斯拉的發展路徑也說明了這一點：從144T到400T再到5000T，AI的趨勢是往前走、往Scaling方向走。

如果按照Tier 1的思路，就是做便宜、反向卷100TOPS，以更低成本實現。這也是一種做法。但頂尖的AI人才不會倒著卷。判斷一家公司是AI公司還是量產公司，就看它是否堅持向前。特斯拉的新車只會裝更新更強的芯片，不會倒回去用3代芯片，盡管3代芯片也已經足夠好。

問：您之前提到元戎追求“溫暖的智能化”，目前公司在這方面有哪些探索和應用落地？

周光：首先，機器具備語音交互能力就是一種“溫暖”。我們從去年開始做相關工作，讓車子不再是冷冰冰的。同時，我們始終把安全放在第一位，不會急功近利地推出半成品，這也是負責任的表現。

問：元戎從最初與Smart等高端品牌合作，到現在與頭部新勢力（如零跑A10）合作下沉到十萬級市場，是不是開始鋪規模了？在這個過程中如何堅持前沿技術？

周光：其實技術路線和商業規模并不沖突。真正的難點在于讓大模型變得更好，而不是把好的模型“蒸餾”到低算力平臺。蒸餾這件事已經很成熟，問題是參數量增加3倍，效果卻沒有明顯變好——這才是今天的問題。

如果你只想拼小算力，那是一條路，可以做蒸餾、做量化，也能實現。但要真正提升體驗，必須讓大的模型變好，這是最難的。一旦你有一個確定的大模型，可以蒸餾到100TOPS甚至30TOPS的芯片上，當然會有一定性能衰減，因為超過模型容量后性能會急劇下降。但難度不在于蒸餾，而在于讓大模型更強。

只要大模型做得好，就一定能適配不同平臺。關鍵是你有沒有更大、更強的模型，而不是只有一個小模型。今天很多稠密小模型仍然依賴非常原始的訓練手段，必須用大模型的范式來做。