網易首頁 > 網易號 > 正文申請入駐

曹旭東：Momenta R7強化學習世界模型相比FSD毫不遜色

2026-03-17 11:39:36　來源: 賽博汽車

北京舉報

分享至

“世界模型戰隊”再添一員大將。

3月16日，在上汽大眾的ID.ERA技術發布會上，MomentaCEO曹旭東正式宣布：Momenta R7強化學習世界模型即將推出，并將全球首發搭載于上汽大眾全新旗艦SUV ID.ERA9X。

全新的MomentaR7強化學習世界模型，通過在強化學習的基礎上引入世界模型，構建起對物理世界的理解能力，即——理解物體的物理屬性、理解運動的因果關系，以及理解交互的潛在可能。

R7，讓AI在試錯中自我進化

對于R7強化學習世界模型，在ID.ERA技術發布會上，曹旭東透露的并不多。目前從已經透露的信息上看，R7的核心突破在于將強化學習與世界模型相結合。

對比上一代基于模仿學習的方案，強化學習的特點在于模型是通過“試錯”完成自我進化——成功獲得正反饋，失敗接受懲罰，從而在反復博弈中優化決策策略。而世界模型的引入，則讓AI開始基于更完整的物理信息做出預測和規劃。

曹旭東給出的數據顯示，在大規模泛化測試中，包括行人、電動車、車輛加塞和避讓場景內，強化學習大模型在關鍵安全性指標上相比模仿學習提升了5倍以上，在行人及非機動車、車輛加塞等核心場景安全體驗均實現顯著躍升。

曹旭東表示，AI正是在各種正負反饋中不斷地成長，最后在安全、效率、舒適等多個維度中取得了超越人類的表現。因為它學會了在復雜中找到最優解，而不是從在模仿中去找平衡。

在曹旭東看來，想要讓大模型在安全安心上的表現有機會大幅超越人類，需要讓它建立起與人類類似的，對物理世界的認知框架。他將這種認知能力歸納為三個層次：理解物體的物理屬性（如區分飄起的塑料袋與滾落的輪胎）、理解運動的因果關系（如前車打轉向燈可能因前方有障礙）、理解交互的潛在可能（預判行人或車輛的動作空間）。

“現在智能輔助駕駛已經進入了指數級的發展階段，過去智駕摩爾定理是每兩年體驗提升10倍，而今天頭部玩家正在做到每年提升10倍，而R7強化學習世界模型的到來，更進一步加速這一進程。”曹旭東說道。

當被問及與特斯拉FSD的對比時，曹旭東直言：“毫不遜色。”他認為，雙方都以第一性原理進行底層創新，而Momenta在部分技術節點上甚至領先。“我們跟特斯拉一樣，都希望通過不斷創新，給世界帶來最偉大的產品。”

為何選擇世界模型而不是VLA？

隨著自動駕駛技術發展，其車端實現路徑也呈現出兩種趨勢：一邊是以理想、小鵬為主導的VLA（視覺—語言—行動）模型路線；另一邊則是以華為、蔚來為代表的世界模型（WorldModel）路線，從技術路線上看，Momenta堅定地選擇了后者。

對此，在會后的采訪中曹旭東從直覺和技術兩個角度給出了解釋。

從直覺上來說，曹旭東認為雖然當下的LLM能力多元，能寫代碼、作詩歌、解數學題，但這些能力對于駕駛本身而言幫助甚微。這就像人類司機想要把車開好，并不需要掌握寫代碼、解數學題的技能，核心只需要能理解物理世界的規律，在各類復雜場景中及時做出反應，并做出安全的預判即可。而世界模型恰好具備這樣的核心能力，它能夠學習物理規律，并且可以通過強化學習收集到大量的長尾場景，在反復訓練中鍛煉出駕駛的“肌肉記憶”。

而從技術角度來看，曹旭東認為VLA的訓練側重點與自動駕駛的實際需求存在明顯偏差。VLA的訓練起源于LLM，其底座模型的參數量一般在100B左右，后續會先完成視覺和語言的對齊，再用行動去和視覺-語言組合對齊。

這也就意味著，在VLA的整個訓練過程中，語義的優先級遠高于駕駛本身，大量的模型參數并未真正服務于駕駛核心任務，陷入了“好鋼沒用在刀刃上”的困境。對此曹旭東總結道：“VLA對自動駕駛是錦上添花，很難雪中送炭。”

VLA和世界模型的選擇，主要是智能駕駛軟件算法層面的技術爭議，而在底層硬件領域，行業一直存在純視覺和多傳感器冗余（激光雷達）的爭論。

對此，曹旭東認為，傳感器選型在智駕技術的核心要素中，重要性僅能排在第三位，而排在前兩位的，是算法架構、數據和研發體系能力。

其中數據是AI迭代的基石，無需多言。在曹旭東看來，在算法架構層面，單一算法本身的技術壁壘其實很低，更重要的是架構的搭建能力，也就是將眾多算法整合形成合力，并通過長期積累形成的體系化能力。而在算法架構之上的，是研發體系能力，這種能力要像神經網絡一樣具備反向傳播的特性，能夠精準識別到用戶的高價值任務，并將其快速傳遞給產品和研發團隊，讓團隊清晰知曉哪些工作的產出價值最高，進而在方案選型時，選出能最快提升用戶體驗的方向。

曹旭東還透露，數據、架構和研發體系能力，是Momenta內部劃定為第一梯隊的核心重要事項，而緊隨其后的第二梯隊則是芯片算力，因為芯片算力直接決定了智駕模型能力的上限。在這些核心要素之后，傳感器才位列第三梯隊。曹旭東認為，即便智駕系統只用純視覺方案，僅依靠攝像頭作為傳感器，相比人類的雙眼也已經是“超配”狀態。因為人類雙眼無法實現360°環視，而攝像頭的感知覆蓋程度已經足夠全面，具備充足的冗余性。

當然，這并不意味著傳感器毫無價值，傳感器自然是越多越好，但曹旭東強調，隨著數據積累、算法架構優化和研發體系能力的不斷提升，單純堆砌傳感器數量、盲目增加激光雷達的邊際效應會持續減弱。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.