網易首頁 > 網易號 > 正文申請入駐

理想 MindVLA-o1：造車游戲的盡頭，是“硅基生命”的破曉

2026-03-20 11:55:34　來源: autocarweekly

上海舉報

分享至

文｜萬湑龍

3月17日，在被AI圈萬眾矚目的英偉達 GTC 大會上，理想汽車基座模型負責人詹錕正式發布了下一代自動駕駛基礎模型MindVLA-o1。次日，理想汽車CEO李想便在B站發布了與詹錕的對談，用極為通俗的語言對這項硬核技術進行了深度解碼。

這段11分鐘的視頻里第一個章節名非常有意思——物理AI卡在哪了？

我相信李想提出的第一個問題也是很多人感興趣的。那就是開車這件事對于我們普通人來說并不難，但是現在全世界最聰明的人、最頂尖的硬件和最龐大的算力，似乎都投入到了自動駕駛上，技術發展的進度卻鮮有實質性的突破。這種投入產出比很難讓人理解。

而其中的卡點，就是缺乏對真實3D世界的理解能力。

過去的模塊化方案（感知、規劃、控制層層剝離）就像是僵化的擊鼓傳花，只要遇到沒寫進代碼里的長尾路況就會徹底罷工，而當下被全行業奉為圭臬的純端到端模型，雖然反應速度變快了，卻淪為了一個知其然而不知其所以然的黑盒。

因為這里藏著兩個致命的軟肋：第一，它在看2D視頻做題。就例如BEV，就很容易丟失高度信息，在這個基礎上做AI訓練，本質上就像坐在電腦屏幕前，通過死記硬背海量的2D視頻來形成肌肉記憶。還有容易喪失語義的OCC，這些嘗試都是試圖去理解真實的3D物理空間，但無論是立體縱深、還是物體屬性，都會對它們造成困擾。

第二，它只有直覺沒有邏輯。它只依靠概率學進行條件反射，完全缺乏邏輯推演能力。它無法解釋自己為什么突然變道，更不會在危險發生前進行“思考”。一個沒有真實三維空間概念、只會憑直覺盲猜的黑盒系統，注定無法在瞬息萬變的物理世界里，為我們的生命安全提供絕對的兜底。

所以，理想MindVLA-o1的顛覆性在于，它真正將三維環境理解、邏輯推理與動作生成在底層實現了完美統一。它或許已經揭示了下一階段自動駕駛模型競爭的邏輯變化——不再是單純地“讓車開得更好”，而是誰能率先造出一個具備感知、思考和行動能力的“物理世界通用人工智能”。

演進的宿命：為什么

物理世界的AI必須重走“人類進化之路”？

理想的技術路線為何在此時發生堅決的轉向？

李想舉了一個通俗的例子：人類之所以能夠游刃有余地處理復雜駕駛場景，是因為我們在 0-6 歲的孩童時期，就已經通過無數次的扔球、奔跑、摔跤，在基因和大腦深處完成了對3D空間的預訓練。而開車，只是在基于我們對于真實的3D空間有了深度理解之后，“無他，唯手熟爾”的常規演進。

詹錕在解讀技術時也印證了這一點。為了補齊 AI 所缺失的這段“童年空間訓練”，理想徹底拋棄了二維降維方案，通過原生3D ViT結合激光雷達點云，直接在底層還原了 3D 空間的真實語義和幾何結構。

在訓練過程中，理想汽車采用以視覺為核心的3D ViT Encoder（3D視覺模型編碼器），并利用激光雷達點云作為三維幾何提示，引導模型理解真實空間結構，使其在單一表示中同時具備語義理解與三維感知能力。

而為了進一步提升環境理解能力，理想汽車在訓練中引入了前饋式3DGS表示（Feedforward 3D Representation），將場景分解為靜態環境與動態物體分別建模。模型不僅能理解當前場景，還可以預測未來的狀態變化。訓練中使用下一幀預測作為自監督信號，同時學習深度信息、語義結構和物體運動。最終得到的3D ViT表示融合了空間結構與時間上下文信息，為后續決策模型提供高質量的3D世界表示。

有一個不容忽視的產業定律是：沒有對3D物理世界的原生理解，就不可能誕生真正的自動駕駛。純靠二維視頻“死記硬背”海量題庫的AI，充其量只是一個擁有極快條件反射的機器。只有真正掌握了三維空間認知，AI才算擁有了在物理世界生存的堅實底座。

在這樣的行業背景下，理想 MindVLA-o1 展現出了降維打擊般的優勢。

一方面，它實現了從盲盒直覺到透明邏輯的升維。MindVLA-o1 并不排斥端到端的快反應，但堅決拒絕“純直覺”。它在極速的神經反射之上，疊加了一層類似人類前額葉的“慢思考（System-2）”機制。結合多模態語言能力，它讓智駕黑盒變得透明、可解釋。另一方面，它實現了從“2D模仿者”到“3D世界理解者”的跨越。通過原生的3D世界觀，它不再只是識別二維像素，而是真正理解了空間的立體縱深與物體的物理屬性。

核心殺手锏：

“多模態慢思考”與打破數據死結的指數級進化

那么，MindVLA-o1 在實際運行中到底強在哪里？

首先，它徹底打破了純端到端“直覺駕駛（System-1）”的盲區，深度引入并重構了“慢思考（System-2）”。但我們深入了解后發現，這種“多模態思考”絕不僅僅是常規的邏輯推導，它最核心的殺手锏在于賦予了機器對未來場景的強大想象力。

譬如說詹錕特別強調的“預測式隱世界模型（Predictive Latent World Model）”的作用。當車輛遇到錯綜復雜的無燈路口時，它不會盲目地根據歷史概率做選擇。相反，它會在極低算力消耗的“隱空間”里，在零點幾秒內預演并推演出未來幾秒鐘各種可能的動態走向。在完成了這種對未來的“腦內彩排”后，再由動作專家（MoE）模塊輸出最安全、平順的軌跡。

其次，這項技術打破了自動駕駛面臨的終極數據死結。現實物理世界中，極端的事故數據是極其稀缺的。為了跨越這道鴻溝，理想依托自研馬赫100芯片的強大算力，構建了一個高度可控的世界模型（MindSim）。這使得 AI 能夠在一個無限逼真、且可以隨意改變環境變量的虛擬世界里，進行高頻的“左右互搏”與閉環強化學習。

而我們稍微把視角抬高一些，以更宏觀一些的角度來審視這套系統的時候，就會發現一個很有意思的現象。MindVLA-o1從視覺感知到世界理解和推理、到行動決策、再到強化學習持續優化，以及最終的系統協同。這其實就是生物性大腦在學習中的過程——從信息進入視覺皮層，到前額葉進行推理和規劃，最終到運動皮層生成具體動作。這種生物進化所篩選出的最優解，也同樣可以為機器構建一個可以在真實世界中運行的“數字大腦”。

也只有這樣，才會讓MindVLA-o1成功地讓機器從“被動地被喂養數據”的束縛中脫身，跨越到了“主動去試錯與思考”的更高維生命形態。

通吃物理世界：

從自動駕駛到具身智能的“降維打擊”

在GTC大會的演示中，令人震撼的不僅僅是復雜的路況博弈，還有一個由MindVLA-o1驅動的機械臂精準地倒了一杯養樂多。

為什么 MindVLA-o1 既能開車，也能控制機器人？

首先在于其底層邏輯的絕對統一。通過解析理想構筑的四大核心架構（MindData、MindVLA-o1、MindSim、RL Infra），我們可以得出一個清晰的結論：這套原生多模態 VLA 架構根本不關心它的神經末梢連接的是方向盤還是機械臂。只要輸入視覺和語言信息，它就能輸出符合物理學定律的動作。GTC 上機械臂倒養樂多的演示，就是對這一技術普適性的最好證明。

其次，這對于推動整個具身智能產業的發展具有不可估量的戰略意義。在所有消費級工業品中，汽車擁有最充沛的電力儲備、最強悍的移動算力和最豐富的傳感器集群，它是驗證具身智能最佳的橋頭堡。理想通過造車，率先跑通了這套閉環的 AI 框架，這為未來將技術無縫遷移到任何形態的機器人身上鋪平了道路。

在理想汽車所描繪的藍圖中，自動駕駛從來都不是終點，它只是具身智能在商業化落地上最大的一塊“試驗田”。汽車，本質上就是一臺長著四個輪子的超級機器人。而統一的 VLA 模型，正是打通所有物理世界智能體的“巴別塔”。

普通人眼里的MindVLA-o1到底是什么？

剝開這些艱深晦澀的技術外衣，我們普通大眾應該如何理解理想的這套硬核技術？

通俗一些來說，它就如同一個“長出前額葉的老司機”。在GTC 2026上的 MindVLA-o1發布會中，詹錕舉了這樣一個例子——

當我們看到右側有一輛車準備并線時，系統需要推理這輛車是否會切入當前車道，如果它真的并線，我們應該如何避讓，是減速、剎車，還是向左變道？而為了做出更好的決策，系統必須擁有預測未來幾秒鐘場景變化的能力。

在此刻，大量的預訓練就發揮了作用。在做駕駛決策時，模型不僅能夠理解當前場景，做出邏輯判斷，還可以在隱空間中提前“想象”未來的畫面，具象化駕駛決策。

再簡單一些說，自動駕駛不僅需要看見世界，還需要預測世界。

任何技術的最高境界，都不在于冷冰冰的算力狂飆，而在于讓機器擁有和人類顆粒度一致的邏輯能力和動作習慣。MindVLA-o1給普通人出行帶來的最大改變，是讓汽車徹底擺脫了一個冰冷“代步工具”的宿命，蛻變成了一個可以讓我們充分理解和信任的“數字伴侶”。

如果我們將視線拉得更高，去回顧李想近期透露的理想汽車內部組織架構的大重組，你會發現這家公司的雄心。底層的芯片與 OS 被定義為“臟器系統”，大語言與視覺基座模型是“腦系統”，而線控底盤和能源供給則是“硬件本體”。這種以生物學視角的架構重整，已經完全脫離了傳統車企的狹隘定義。

當一家車企開始按照“人體結構”來重構自己的核心研發體系時，它的終極目標就已經不再是每年能賣出多少輛車，而是試圖構建一個完整制造“硅基家人”的能力體系。而 MindVLA-o1，便是發動這套龐大體系的第一縷星火。

它不僅跨越了參數內卷的生死線，更是徹底改變了汽車產業賴以生存的競爭維度。它硬生生地將戰場從單純交通工具的智能化，拉升到了物理世界AI基礎設施的軍備競賽層面。在下一個時代，掌握了這套VLA原生多模態能力的玩家，拿到的將不再是下一代汽車市場的入場券，而是主導整個具身智能時代的戰略底牌。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.