![]()
“世界模型戰隊”再添一員大將。
3月16日,在上汽大眾的ID.ERA技術發布會上,MomentaCEO曹旭東正式宣布:Momenta R7強化學習世界模型即將推出,并將全球首發搭載于上汽大眾全新旗艦SUV ID.ERA9X。
全新的MomentaR7強化學習世界模型,通過在強化學習的基礎上引入世界模型,構建起對物理世界的理解能力,即——理解物體的物理屬性、理解運動的因果關系,以及理解交互的潛在可能。
01
R7,讓AI在試錯中自我進化
對于R7強化學習世界模型,在ID.ERA技術發布會上,曹旭東透露的并不多。目前從已經透露的信息上看,R7的核心突破在于將強化學習與世界模型相結合。
對比上一代基于模仿學習的方案,強化學習的特點在于模型是通過“試錯”完成自我進化——成功獲得正反饋,失敗接受懲罰,從而在反復博弈中優化決策策略。而世界模型的引入,則讓AI開始基于更完整的物理信息做出預測和規劃。
![]()
曹旭東給出的數據顯示,在大規模泛化測試中,包括行人、電動車、車輛加塞和避讓場景內,強化學習大模型在關鍵安全性指標上相比模仿學習提升了5倍以上,在行人及非機動車、車輛加塞等核心場景安全體驗均實現顯著躍升。
![]()
曹旭東表示,AI正是在各種正負反饋中不斷地成長,最后在安全、效率、舒適等多個維度中取得了超越人類的表現。因為它學會了在復雜中找到最優解,而不是從在模仿中去找平衡。
在曹旭東看來,想要讓大模型在安全安心上的表現有機會大幅超越人類,需要讓它建立起與人類類似的,對物理世界的認知框架。他將這種認知能力歸納為三個層次:理解物體的物理屬性(如區分飄起的塑料袋與滾落的輪胎)、理解運動的因果關系(如前車打轉向燈可能因前方有障礙)、理解交互的潛在可能(預判行人或車輛的動作空間)。
“現在智能輔助駕駛已經進入了指數級的發展階段,過去智駕摩爾定理是每兩年體驗提升10倍,而今天頭部玩家正在做到每年提升10倍,而R7強化學習世界模型的到來,更進一步加速這一進程。”曹旭東說道。
當被問及與特斯拉FSD的對比時,曹旭東直言:“毫不遜色。”他認為,雙方都以第一性原理進行底層創新,而Momenta在部分技術節點上甚至領先。“我們跟特斯拉一樣,都希望通過不斷創新,給世界帶來最偉大的產品。”
02
為何選擇世界模型而不是VLA?
隨著自動駕駛技術發展,其車端實現路徑也呈現出兩種趨勢:一邊是以理想、小鵬為主導的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為代表的世界模型(WorldModel)路線,從技術路線上看,Momenta堅定地選擇了后者。
對此,在會后的采訪中曹旭東從直覺和技術兩個角度給出了解釋。
從直覺上來說,曹旭東認為雖然當下的LLM能力多元,能寫代碼、作詩歌、解數學題,但這些能力對于駕駛本身而言幫助甚微。這就像人類司機想要把車開好,并不需要掌握寫代碼、解數學題的技能,核心只需要能理解物理世界的規律,在各類復雜場景中及時做出反應,并做出安全的預判即可。而世界模型恰好具備這樣的核心能力,它能夠學習物理規律,并且可以通過強化學習收集到大量的長尾場景,在反復訓練中鍛煉出駕駛的“肌肉記憶”。
而從技術角度來看,曹旭東認為VLA的訓練側重點與自動駕駛的實際需求存在明顯偏差。VLA的訓練起源于LLM,其底座模型的參數量一般在100B左右,后續會先完成視覺和語言的對齊,再用行動去和視覺-語言組合對齊。
這也就意味著,在VLA的整個訓練過程中,語義的優先級遠高于駕駛本身,大量的模型參數并未真正服務于駕駛核心任務,陷入了“好鋼沒用在刀刃上”的困境。對此曹旭東總結道:“VLA對自動駕駛是錦上添花,很難雪中送炭。”
![]()
VLA和世界模型的選擇,主要是智能駕駛軟件算法層面的技術爭議,而在底層硬件領域,行業一直存在純視覺和多傳感器冗余(激光雷達)的爭論。
對此,曹旭東認為,傳感器選型在智駕技術的核心要素中,重要性僅能排在第三位,而排在前兩位的,是算法架構、數據和研發體系能力。
其中數據是AI迭代的基石,無需多言。在曹旭東看來,在算法架構層面,單一算法本身的技術壁壘其實很低,更重要的是架構的搭建能力,也就是將眾多算法整合形成合力,并通過長期積累形成的體系化能力。而在算法架構之上的,是研發體系能力,這種能力要像神經網絡一樣具備反向傳播的特性,能夠精準識別到用戶的高價值任務,并將其快速傳遞給產品和研發團隊,讓團隊清晰知曉哪些工作的產出價值最高,進而在方案選型時,選出能最快提升用戶體驗的方向。
曹旭東還透露,數據、架構和研發體系能力,是Momenta內部劃定為第一梯隊的核心重要事項,而緊隨其后的第二梯隊則是芯片算力,因為芯片算力直接決定了智駕模型能力的上限。在這些核心要素之后,傳感器才位列第三梯隊。曹旭東認為,即便智駕系統只用純視覺方案,僅依靠攝像頭作為傳感器,相比人類的雙眼也已經是“超配”狀態。因為人類雙眼無法實現360°環視,而攝像頭的感知覆蓋程度已經足夠全面,具備充足的冗余性。
當然,這并不意味著傳感器毫無價值,傳感器自然是越多越好,但曹旭東強調,隨著數據積累、算法架構優化和研發體系能力的不斷提升,單純堆砌傳感器數量、盲目增加激光雷達的邊際效應會持續減弱。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.