理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型MindVLA-o1

2026-03-17 16:25:13　來源: 旭車評

廣東舉報

分享至

2026年3月17日，理想汽車基座模型負(fù)責(zé)人詹錕出席NVIDIA GTC 2026，發(fā)表主題演講《MindVLA-o1：開啟全能范式——下一代統(tǒng)一視覺-語言-動作自動駕駛大模型探索》，發(fā)布下一代自動駕駛基礎(chǔ)模型MindVLA-o1。MindVLA-o1通過五大技術(shù)創(chuàng)新，構(gòu)建了面向物理世界智能的自動駕駛基礎(chǔ)模型，讓自動駕駛看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效。

詹錕表示：“當(dāng)我們把視覺、語言和行動統(tǒng)一到一個模型中時，它已不再只是自動駕駛模型，而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型，不僅可以控制車輛，也能夠擴(kuò)展到機(jī)器人。因此，自動駕駛只是物理AI的起點(diǎn)，未來這類基礎(chǔ)模型將驅(qū)動新的具身智能范式。”

從規(guī)則時代到AI時代理想輔助駕駛持續(xù)演進(jìn)

自2021年啟動輔助駕駛自研以來，理想輔助駕駛技術(shù)架構(gòu)經(jīng)歷了多輪關(guān)鍵迭代，持續(xù)的技術(shù)探索與工程實(shí)踐，為理想汽車在軟硬件一體化研發(fā)領(lǐng)域積累了深厚的基礎(chǔ)研究能力與研發(fā)實(shí)力。2024年是理想輔助駕駛的重要分水嶺，隨著端到端+VLM（視覺語言模型）雙系統(tǒng)架構(gòu)量產(chǎn)交付，輔助駕駛首次真正具備了跨場景、跨任務(wù)的統(tǒng)一理解能力。2025年，理想汽車進(jìn)一步將空間理解、語言理解與行動決策統(tǒng)一到同一模型框架，構(gòu)建了基于VLA、世界模型與強(qiáng)化學(xué)習(xí)三大技術(shù)棧的VLA司機(jī)大模型，并于8月隨理想i8交付正式推送，9月向AD Max用戶全量推送。

截至2025年底，VLA司機(jī)大模型月使用率達(dá)到80%，VLA指令累計使用1225.4萬次；春節(jié)期間理想輔助駕駛總里程達(dá)2.5億公里，VLA指令使用次數(shù)達(dá)130.3萬次。規(guī)模化的用戶驗(yàn)證與持續(xù)積累的真實(shí)場景數(shù)據(jù)，為理想汽車推進(jìn)下一代自動駕駛技術(shù)演進(jìn)提供了堅實(shí)基礎(chǔ)。

MindVLA-o1五大技術(shù)創(chuàng)新：看得更遠(yuǎn)、想得更深、行得更穩(wěn)、進(jìn)化更快、部署更高效

理想汽車提出下一代統(tǒng)一架構(gòu)——MindVLA-o1。該架構(gòu)以原生多模態(tài)MoE Transformer為核心，通過五大技術(shù)創(chuàng)新——3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強(qiáng)化學(xué)習(xí)（Closed-loop RL）和軟硬件協(xié)同設(shè)計（Hardware–Software Co-Design），構(gòu)建了面向物理世界智能的自動駕駛基礎(chǔ)模型。

在感知層面，理想汽車采用以視覺為核心的 3D ViT Encoder（3D視覺模型編碼器），并利用激光雷達(dá)點(diǎn)云作為三維幾何提示，引導(dǎo)模型理解真實(shí)空間結(jié)構(gòu)，使其在單一表示中同時具備語義理解與三維感知能力。同時引入前饋式3DGS表示（Feedforward 3D Representation），將場景拆分為靜態(tài)環(huán)境與動態(tài)物體分別建模，并通過下一幀預(yù)測（Next-state prediction）作為自監(jiān)督信號，使模型同時學(xué)習(xí)深度信息、語義結(jié)構(gòu)與物體運(yùn)動，最終形成融合空間結(jié)構(gòu)與時間上下文的高質(zhì)量3D表示。具備3D空間理解能力，使模型看得更遠(yuǎn)。

在思考層面，自動駕駛既要理解當(dāng)前環(huán)境，也要預(yù)測未來幾秒的場景演化。在語言模型承擔(dān)語義理解、常識知識和交互能力的基礎(chǔ)上，理想汽車還引入了預(yù)測式隱世界模型，在隱空間中高效模擬未來。訓(xùn)練分三階段：第一，用海量視頻數(shù)據(jù)預(yù)訓(xùn)練Latent World Token（隱世界詞元），構(gòu)建未來表征；第二，在MindVLA-o1中持續(xù)世界模型的推演，形成隱空間的未來推理能力；第三，將世界模型、多模態(tài)推理能力及駕駛行為進(jìn)行聯(lián)合訓(xùn)練與對齊。由此，模型不僅能理解當(dāng)前場景并進(jìn)行邏輯判斷，還能在隱空間中提前“想象”未來畫面，將駕駛決策具象化。理想汽車將這種能力定義為多模態(tài)思考（Generative Multimodal Thinking）。擁有多模態(tài)思考能力，讓模型想得更深。

在行為層面，理想汽車構(gòu)建了統(tǒng)一行為生成（Unified Action Generation）機(jī)制。首先，MindVLA-o1使用VLA-MoE（混合專家模型）架構(gòu)，并引入專門的Action Expert（動作專家），從3D場景特征、導(dǎo)航目標(biāo)、駕駛指令等多維輸入中提取信息，并結(jié)合多模態(tài)思考生成高精度駕駛軌跡。其次，為滿足實(shí)時性要求，系統(tǒng)采用并行解碼（Parallel Decoding），同時生成所有軌跡點(diǎn)，大幅提升效率。最后，引入Discrete Diffusion（離散擴(kuò)散）進(jìn)行多輪迭代優(yōu)化，類似逐步去噪，確保軌跡空間連續(xù)、時間穩(wěn)定，并符合車輛動力學(xué)約束。形成統(tǒng)一行為生成機(jī)制，使模型行得更穩(wěn)。

在模型迭代層面，理想汽車構(gòu)建了閉環(huán)強(qiáng)化學(xué)習(xí)框架，讓模型不僅能從真實(shí)數(shù)據(jù)學(xué)習(xí)，還能在世界模擬器（World Simulator）中持續(xù)探索和優(yōu)化策略。為此，理想汽車將傳統(tǒng)逐步優(yōu)化式重建升級為Feed-forward（前饋）場景重建，使系統(tǒng)能夠瞬時生成大規(guī)模、高保真駕駛場景，支持大規(guī)模并行訓(xùn)練。同時，結(jié)合生成式模型（Generative Models），模擬環(huán)境可擴(kuò)展、編輯并生成全新場景。為支持大規(guī)模模擬與訓(xùn)練，理想汽車開發(fā)了統(tǒng)一的3D Gaussian Splatting（3D高斯?jié)姙R）渲染引擎和分布式訓(xùn)練框架，渲染速度提升近2倍，整體訓(xùn)練成本降低約75%，實(shí)現(xiàn)低成本、高效率的強(qiáng)化學(xué)習(xí)閉環(huán)。在閉環(huán)強(qiáng)化學(xué)習(xí)框架下，模型實(shí)現(xiàn)更快進(jìn)化。

為解決傳統(tǒng)端側(cè)大模型部署耗時長、調(diào)試頻繁的問題，理想汽車提出面向端側(cè)大模型的軟硬件協(xié)同設(shè)計定律，將模型結(jié)構(gòu)與驗(yàn)證損失建模，并結(jié)合Roofline模型刻畫硬件計算能力與內(nèi)存帶寬限制，在模型性能與硬件約束之間建立統(tǒng)一的分析框架。理想汽車基座模型團(tuán)隊評估了近2000種模型架構(gòu)配置，在英偉達(dá)Orin與Thor平臺上完成驗(yàn)證，找到了模型精度與推理延遲之間的Pareto Front（帕累托前沿），將架構(gòu)探索時間從數(shù)月縮短至數(shù)天，大幅提升端側(cè)VLA模型的設(shè)計與部署效率。在軟硬件協(xié)同設(shè)計定律下，模型部署更高效。

自動駕駛只是起點(diǎn)，為具身智能構(gòu)建“數(shù)字大腦”

MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊組成：MindData，統(tǒng)一的VLA數(shù)據(jù)引擎，負(fù)責(zé)大規(guī)模數(shù)據(jù)的采集、清洗和自動標(biāo)注；MindVLA-o1，統(tǒng)一的原生多模態(tài)VLA模型，可以理解環(huán)境、進(jìn)行推理，并生成駕駛行為；MindSim，可控的多模態(tài)世界模型，用于生成復(fù)雜駕駛場景并支持大規(guī)模閉環(huán)訓(xùn)練；RL Infra（強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施），通過獎勵模型和策略學(xué)習(xí)，使系統(tǒng)在仿真與真實(shí)環(huán)境中自我進(jìn)化。

四部分協(xié)同形成完整閉環(huán)，使AI能夠感知、理解并在物理世界中自主行動，并持續(xù)學(xué)習(xí)。從結(jié)構(gòu)上看，這套系統(tǒng)如同一個“數(shù)字大腦”：感知層對應(yīng)視覺皮層，推理與規(guī)劃如前額葉，場景生成似運(yùn)動皮層，強(qiáng)化學(xué)習(xí)則類似多巴胺反饋，實(shí)現(xiàn)了感知、理解、行動和持續(xù)優(yōu)化的完整閉環(huán)。

該框架不僅服務(wù)于汽車，也可擴(kuò)展至機(jī)器人及各種物理系統(tǒng)。對理想汽車而言，車是最大號的機(jī)器人，其本質(zhì)是在構(gòu)建硅基生命體的軀干與大腦。

理想汽車在持續(xù)推進(jìn)技術(shù)創(chuàng)新的同時，在人工智能領(lǐng)域頂級學(xué)術(shù)會議和期刊發(fā)表了大量研究成果，其中MindVLA-o1相關(guān)的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發(fā)表。未來，理想汽車將繼續(xù)以用戶價值為導(dǎo)向，投入前沿研究以及核心技術(shù)自研，持續(xù)構(gòu)建面向物理世界智能的完整AI系統(tǒng)，堅定邁向全球領(lǐng)先的具身智能企業(yè)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.