人類用3D空間認知世界,AI卻只看2D視頻上路。自動駕駛卡在哪?李想一句話點破!
他的核心觀點很扎眼:全球車企與科技公司砸了巨資,為什么自動駕駛進展緩慢?因為主流方案一直在用2D視頻訓練AI,相當于讓AI只看行車記錄儀就上路。
這話不是夸張。傳統BEV架構會丟失高度信息,OCC方案缺少語義信息。AI始終無法像人一樣真正理解三維世界。
而理想的破局方案,叫原生3D ViT三維視覺編碼器。讓模型從一開始就工作在3D空間,同步完成幾何結構與語義理解。
![]()
01 人類用3D認知世界,AI卻只看2D錄像
李想的邏輯起點,是一個人盡皆知但行業一直沒解決的問題。
人類駕駛員的安全性從哪來?不是18歲拿到駕照那天才開始學的。李想指出,人類在幼年就通過活動建立了完整的3D物理空間認知。爬、走、跑、跳,觸摸物體、躲避障礙,這些看似簡單的活動,讓大腦學會了理解三維世界。
而AI學開車的方式呢?
行業主流方案一直是用2D視頻素材訓練AI模型。說白了,就是讓AI看海量的行車記錄儀畫面,然后指望它能從這些平面影像里學會駕駛。
李想把這事兒比喻得太形象了:相當于只看行車記錄儀就上路。
更扎心的是,不是沒人意識到這個問題。傳統BEV(鳥瞰圖)架構確實火了幾年,但它最大的缺陷是會丟失高度信息——一棵樹和一個人的投影可能在鳥瞰圖上長得差不多,但開車撞上去的后果天差地別。
后來的OCC(占用網絡)方案雖然是3D架構,卻又缺少語義信息——模型知道某個空間被占用了,但不知道被什么占用了,無法判斷物體的可碰撞屬性。
AI始終無法像人一樣真正理解三維世界,這才是幾千億砸下去卻進展緩慢的關鍵癥結。
![]()
02 理想的破局:讓AI從一開始就活在3D世界
針對這個痛點,理想給出的答案叫原生3D ViT三維視覺編碼器。
為什么叫“原生3D”?因為它徹底拋棄了從2D到3D的轉換過程。過去的方案是先讓AI看2D視頻,再通過算法“腦補”出三維信息;理想的方案是讓模型從一開始就工作在3D空間。
這套系統能同步完成兩件事:幾何結構理解和語義理解。換句話說,AI不僅知道“那里有東西”,還知道“那是什么東西”,以及“它可能怎么運動”。
更關鍵的是算力支撐。理想自研的馬赫芯片,單顆有效算力是上一代的3倍,讓這套3D ViT架構能夠真正放進車里,而不是停留在實驗室。
效果如何?這套系統可穩定感知500米以上范圍。激光雷達的角色也變了——從感知核心轉變為高精度的標定工具,為視覺提供幾何約束。
李想還透露,理想正在將3D ViT與多模態思考能力結合,讓模型擁有更完整的3D認知。預計今年年中完成融合。
![]()
03 MindVLA-o1:不只是自動駕駛,是通用物理世界智能體
3月17日,在NVIDIA GTC 2026大會上,理想汽車基座模型負責人詹錕正式發布了下一代自動駕駛基礎模型MindVLA-o1。
這款模型的核心突破在于,統一了空間理解、思考推理和駕駛行為。
傳統的自動駕駛模型,感知、決策、控制各走一套體系,中間有信息損耗。MindVLA-o1用一個統一的VLA模型,同時完成三個任務。更關鍵的是,它具備多模態思考能力——融合語言推理與空間推演,可在隱空間內模擬未來幾秒的場景變化。
李想特別強調,這套模型不只是用于自動駕駛,同樣能適配機器人。
“同一套VLA基座模型,能開車,也能控制機器人。它正在逐漸演化成一個通用的物理世界智能體。”
這話的潛臺詞很明確:自動駕駛只是物理AI的起點,不是終點。
2025年,理想全年交付40.63萬輛新車,雖然同比下滑,但龐大的車隊每天都在為這套模型貢獻真實路況數據。截至2025年底,理想VLA司機大模型月使用率達到80%,VLA指令累計使用超1200萬次。這些數據,是任何實驗室都無法復制的“飼料”。
![]()
04 百億豪賭:理想為何敢All in AI
李想敢在這個時候捅破行業窗戶紙,不是因為他閑得慌,是因為理想的轉型已經到了關鍵時刻。
3月中旬,理想發布2025年財報,一組數據很扎眼:全年營收1123億元,同比下滑22.3%;凈利潤驟降至11億元,相較2024年的80億元暴跌86%。
但就在這份堪稱“上市以來最慘”的財報中,有一個數字格外刺眼:研發投入113億元,創歷史新高,其中約50%砸向了AI相關項目。
一邊是利潤斷崖式下滑,一邊是研發逆勢狂飆。李想用行動表明:理想不再只是一家汽車公司,而是正在轉型為AI公司。
更激進的調整在組織層面。過去半年,理想有8位核心高管離職,涵蓋智駕、芯片、產品等關鍵崗位。原自動駕駛部門被徹底拆分重組,智駕“端到端”時代的核心班底幾乎清空。
這不是人事地震,是戰略換道。李想親自定調:2026年是理想成為AI頭部公司的最后窗口期。在他眼里,繼續在造車這條路上和對手卷配置、卷價格,只會陷入死循環。真正的突圍方向,是具身智能。
截至2025年末,理想現金儲備1012億元。這筆錢,足夠讓理想在寒冬里完成這場豪賭。
![]()
李想那句話,值得所有還在討論自動駕駛的人聽三遍:
“人類用3D空間認知世界,AI卻只看2D視頻上路。”
這不僅僅是技術的差距,是認知的鴻溝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.