3 月 17 日,在 2026 GTC 大會上,理想汽車基座模型負責人詹錕正式發布下一代自動駕駛模型 MindVLA-o1。該模型統一了空間理解、思考推理以及駕駛行為,實現對 3D 空間的完整理解,且同一套 VLA 模型可同時控制車輛與機器人,將自動駕駛定義為物理 AI 的發展起點。
![]()
針對行業傳統方案的技術瓶頸,理想汽車打造原生 3D ViT 視覺模型。傳統 BEV 方案將場景壓縮為俯視圖,丟失關鍵高度信息;OCC 占用網絡雖為 3D 架構,卻缺少核心語義信息,無法判斷物體可碰撞屬性。MindVLA-o1 的 3D ViT 可通過視頻流直接還原 3D 空間的位置、點云、語義與像素信息,訓練中融合視覺的豐富語義與激光雷達的精準幾何數據,引入前饋式 3DGS 表示對靜動態場景分別建模,通過自監督學習實現場景未來狀態預測,為決策輸出高質量 3D 世界表征。
算力層面,理想自研馬赫 100 芯片在標準大規模矩陣乘任務上性能較上一代提升 3 倍,為新架構車規級落地提供核心算力保障。
同時,該模型搭載新一代多模態思考框架,融合語言推理與空間推演能力,引入 System-2 顯式推理機制與預測式隱世界模型,可在隱空間內高效完成未來場景模擬與復雜場景決策推演。
此外,理想汽車已搭建完整的具身智能 AI 框架,通過統一的數據引擎、VLA 模型、仿真系統與強化學習基礎設施,實現模型跨智能體復用,推動基礎模型向通用物理世界智能體持續演化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.