文|萬湑龍
3月17日,在被AI圈萬眾矚目的英偉達 GTC 大會上,理想汽車基座模型負責人詹錕正式發布了下一代自動駕駛基礎模型MindVLA-o1。次日,理想汽車CEO李想便在B站發布了與詹錕的對談,用極為通俗的語言對這項硬核技術進行了深度解碼。
![]()
這段11分鐘的視頻里第一個章節名非常有意思——物理AI卡在哪了?
![]()
我相信李想提出的第一個問題也是很多人感興趣的。那就是開車這件事對于我們普通人來說并不難,但是現在全世界最聰明的人、最頂尖的硬件和最龐大的算力,似乎都投入到了自動駕駛上,技術發展的進度卻鮮有實質性的突破。這種投入產出比很難讓人理解。
而其中的卡點,就是缺乏對真實3D世界的理解能力。
過去的模塊化方案(感知、規劃、控制層層剝離)就像是僵化的擊鼓傳花,只要遇到沒寫進代碼里的長尾路況就會徹底罷工,而當下被全行業奉為圭臬的純端到端模型,雖然反應速度變快了,卻淪為了一個知其然而不知其所以然的黑盒。
因為這里藏著兩個致命的軟肋:第一,它在看2D視頻做題。就例如BEV,就很容易丟失高度信息,在這個基礎上做AI訓練,本質上就像坐在電腦屏幕前,通過死記硬背海量的2D視頻來形成肌肉記憶。還有容易喪失語義的OCC,這些嘗試都是試圖去理解真實的3D物理空間,但無論是立體縱深、還是物體屬性,都會對它們造成困擾。
第二,它只有直覺沒有邏輯。它只依靠概率學進行條件反射,完全缺乏邏輯推演能力。它無法解釋自己為什么突然變道,更不會在危險發生前進行“思考”。一個沒有真實三維空間概念、只會憑直覺盲猜的黑盒系統,注定無法在瞬息萬變的物理世界里,為我們的生命安全提供絕對的兜底。
所以,理想MindVLA-o1的顛覆性在于,它真正將三維環境理解、邏輯推理與動作生成在底層實現了完美統一。它或許已經揭示了下一階段自動駕駛模型競爭的邏輯變化——不再是單純地“讓車開得更好”,而是誰能率先造出一個具備感知、思考和行動能力的“物理世界通用人工智能”。
演進的宿命:為什么
物理世界的AI必須重走“人類進化之路”?
理想的技術路線為何在此時發生堅決的轉向?
李想舉了一個通俗的例子:人類之所以能夠游刃有余地處理復雜駕駛場景,是因為我們在 0-6 歲的孩童時期,就已經通過無數次的扔球、奔跑、摔跤,在基因和大腦深處完成了對3D空間的預訓練。而開車,只是在基于我們對于真實的3D空間有了深度理解之后,“無他,唯手熟爾”的常規演進。
詹錕在解讀技術時也印證了這一點。為了補齊 AI 所缺失的這段“童年空間訓練”,理想徹底拋棄了二維降維方案,通過原生3D ViT結合激光雷達點云,直接在底層還原了 3D 空間的真實語義和幾何結構。
![]()
在訓練過程中,理想汽車采用以視覺為核心的3D ViT Encoder(3D視覺模型編碼器),并利用激光雷達點云作為三維幾何提示,引導模型理解真實空間結構,使其在單一表示中同時具備語義理解與三維感知能力。
而為了進一步提升環境理解能力,理想汽車在訓練中引入了前饋式3DGS表示(Feedforward 3D Representation),將場景分解為靜態環境與動態物體分別建模。模型不僅能理解當前場景,還可以預測未來的狀態變化。訓練中使用下一幀預測作為自監督信號,同時學習深度信息、語義結構和物體運動。最終得到的3D ViT表示融合了空間結構與時間上下文信息,為后續決策模型提供高質量的3D世界表示。
有一個不容忽視的產業定律是:沒有對3D物理世界的原生理解,就不可能誕生真正的自動駕駛 。純靠二維視頻“死記硬背”海量題庫的AI,充其量只是一個擁有極快條件反射的機器。只有真正掌握了三維空間認知,AI才算擁有了在物理世界生存的堅實底座。
在這樣的行業背景下,理想 MindVLA-o1 展現出了降維打擊般的優勢。
一方面,它實現了從盲盒直覺到透明邏輯的升維。MindVLA-o1 并不排斥端到端的快反應,但堅決拒絕“純直覺”。它在極速的神經反射之上,疊加了一層類似人類前額葉的“慢思考(System-2)”機制。結合多模態語言能力,它讓智駕黑盒變得透明、可解釋。另一方面,它實現了從“2D模仿者”到“3D世界理解者”的跨越。通過原生的3D世界觀,它不再只是識別二維像素,而是真正理解了空間的立體縱深與物體的物理屬性。
![]()
核心殺手锏:
“多模態慢思考”與打破數據死結的指數級進化
那么,MindVLA-o1 在實際運行中到底強在哪里 ?
首先,它徹底打破了純端到端“直覺駕駛(System-1)”的盲區,深度引入并重構了“慢思考(System-2)”。但我們深入了解后發現,這種“多模態思考”絕不僅僅是常規的邏輯推導,它最核心的殺手锏在于賦予了機器對未來場景的強大想象力。
譬如說詹錕特別強調的“預測式隱世界模型(Predictive Latent World Model)”的作用。當車輛遇到錯綜復雜的無燈路口時,它不會盲目地根據歷史概率做選擇。相反,它會在極低算力消耗的“隱空間”里,在零點幾秒內預演并推演出未來幾秒鐘各種可能的動態走向。在完成了這種對未來的“腦內彩排”后,再由動作專家(MoE)模塊輸出最安全、平順的軌跡。
其次,這項技術打破了自動駕駛面臨的終極數據死結。現實物理世界中,極端的事故數據是極其稀缺的。為了跨越這道鴻溝,理想依托自研馬赫100芯片的強大算力,構建了一個高度可控的世界模型(MindSim)。這使得 AI 能夠在一個無限逼真、且可以隨意改變環境變量的虛擬世界里,進行高頻的“左右互搏”與閉環強化學習。
而我們稍微把視角抬高一些,以更宏觀一些的角度來審視這套系統的時候,就會發現一個很有意思的現象。MindVLA-o1從視覺感知到世界理解和推理、到行動決策、再到強化學習持續優化,以及最終的系統協同。這其實就是生物性大腦在學習中的過程——從信息進入視覺皮層,到前額葉進行推理和規劃,最終到運動皮層生成具體動作。這種生物進化所篩選出的最優解,也同樣可以為機器構建一個可以在真實世界中運行的“數字大腦”。
也只有這樣,才會讓MindVLA-o1成功地讓機器從“被動地被喂養數據”的束縛中脫身,跨越到了“主動去試錯與思考”的更高維生命形態。
通吃物理世界:
從自動駕駛到具身智能的“降維打擊”
在GTC大會的演示中,令人震撼的不僅僅是復雜的路況博弈,還有一個由MindVLA-o1驅動的機械臂精準地倒了一杯養樂多。
![]()
為什么 MindVLA-o1 既能開車,也能控制機器人?
首先在于其底層邏輯的絕對統一。通過解析理想構筑的四大核心架構(MindData、MindVLA-o1、MindSim、RL Infra),我們可以得出一個清晰的結論:這套原生多模態 VLA 架構根本不關心它的神經末梢連接的是方向盤還是機械臂。只要輸入視覺和語言信息,它就能輸出符合物理學定律的動作。GTC 上機械臂倒養樂多的演示,就是對這一技術普適性的最好證明。
其次,這對于推動整個具身智能產業的發展具有不可估量的戰略意義。在所有消費級工業品中,汽車擁有最充沛的電力儲備、最強悍的移動算力和最豐富的傳感器集群,它是驗證具身智能最佳的橋頭堡。理想通過造車,率先跑通了這套閉環的 AI 框架,這為未來將技術無縫遷移到任何形態的機器人身上鋪平了道路。
在理想汽車所描繪的藍圖中,自動駕駛從來都不是終點,它只是具身智能在商業化落地上最大的一塊“試驗田”。汽車,本質上就是一臺長著四個輪子的超級機器人。而統一的 VLA 模型,正是打通所有物理世界智能體的“巴別塔”。
普通人眼里的MindVLA-o1到底是什么?
剝開這些艱深晦澀的技術外衣,我們普通大眾應該如何理解理想的這套硬核技術?
通俗一些來說,它就如同一個“長出前額葉的老司機”。在GTC 2026上的 MindVLA-o1發布會中,詹錕舉了這樣一個例子——
當我們看到右側有一輛車準備并線時,系統需要推理這輛車是否會切入當前車道,如果它真的并線,我們應該如何避讓,是減速、剎車,還是向左變道?而為了做出更好的決策,系統必須擁有預測未來幾秒鐘場景變化的能力。
![]()
在此刻,大量的預訓練就發揮了作用。在做駕駛決策時,模型不僅能夠理解當前場景,做出邏輯判斷,還可以在隱空間中提前“想象”未來的畫面,具象化駕駛決策。
再簡單一些說,自動駕駛不僅需要看見世界,還需要預測世界。
任何技術的最高境界,都不在于冷冰冰的算力狂飆,而在于讓機器擁有和人類顆粒度一致的邏輯能力和動作習慣。MindVLA-o1給普通人出行帶來的最大改變,是讓汽車徹底擺脫了一個冰冷“代步工具”的宿命,蛻變成了一個可以讓我們充分理解和信任的“數字伴侶”。
如果我們將視線拉得更高,去回顧李想近期透露的理想汽車內部組織架構的大重組,你會發現這家公司的雄心。底層的芯片與 OS 被定義為“臟器系統”,大語言與視覺基座模型是“腦系統”,而線控底盤和能源供給則是“硬件本體”。這種以生物學視角的架構重整,已經完全脫離了傳統車企的狹隘定義。
當一家車企開始按照“人體結構”來重構自己的核心研發體系時,它的終極目標就已經不再是每年能賣出多少輛車,而是試圖構建一個完整制造“硅基家人”的能力體系。而 MindVLA-o1,便是發動這套龐大體系的第一縷星火。
它不僅跨越了參數內卷的生死線,更是徹底改變了汽車產業賴以生存的競爭維度。它硬生生地將戰場從單純交通工具的智能化,拉升到了物理世界AI基礎設施的軍備競賽層面。在下一個時代,掌握了這套VLA原生多模態能力的玩家,拿到的將不再是下一代汽車市場的入場券,而是主導整個具身智能時代的戰略底牌。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.