337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ColaVLA:自動(dòng)駕駛大模型,不一定非要把「思考過程」寫成文字

0
分享至



過去兩年,自動(dòng)駕駛和大模型的結(jié)合越來越熱。一個(gè)很自然的方向是:既然視覺語言模型已經(jīng)具備很強(qiáng)的場景理解和推理能力,那能不能讓它像人類司機(jī)一樣,先理解環(huán)境、再做判斷、最后輸出軌跡?

這條路線聽起來很合理,但真正落到自動(dòng)駕駛上,很快就會(huì)遇到一個(gè)問題:很多方法雖然引入了大模型,卻仍然把「推理」做成了文本鏈?zhǔn)酵评怼R簿褪钦f,模型要先生成中間解釋,再把這些解釋一步步轉(zhuǎn)成動(dòng)作或軌跡。這樣做的優(yōu)點(diǎn)是看起來 「更會(huì)思考」,但代價(jià)也非常明顯:文本是離散 token,而軌跡是連續(xù)控制;文本推理還依賴自回歸解碼,速度慢、鏈路長,不太適合實(shí)時(shí)駕駛。

來自清華大學(xué)與香港中文大學(xué) MMLab 的研究團(tuán)隊(duì)提出了全新的隱空間推理與層次化軌跡規(guī)劃的 VLA 框架 --ColaVLA,論文已經(jīng)被 CVPR2026 主會(huì)接收。



  • 論文標(biāo)題:ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
  • 論文鏈接: https://arxiv.org/abs/2512.22939
  • 代碼鏈接: https://github.com/pqh22/ColaVLA

這篇論文給出的答案很直接:自動(dòng)駕駛中的推理,不一定要寫成文字。

與其讓模型「邊說邊想」,不如讓它在統(tǒng)一潛空間里完成推理,再把結(jié)果直接交給動(dòng)作規(guī)劃器。這樣既能保留 VLM 的語義先驗(yàn)和知識(shí)能力,又能繞開顯式文本生成帶來的延遲和表示錯(cuò)位。

整篇論文最重要的貢獻(xiàn),其實(shí)可以概括成兩句話:第一,把推理從文本空間搬到潛空間;第二,把軌跡生成從串行過程改成分層并行過程。



一、核心思路:先「想清楚」,再「開出來」

ColaVLA 的整體框架由兩個(gè)核心部分組成:

  • Cognitive Latent Reasoner:負(fù)責(zé)完成高層駕駛認(rèn)知
  • Hierarchical Parallel Planner:負(fù)責(zé)把高層策略展開成連續(xù)軌跡

作者的目標(biāo)不是簡單把一個(gè)大模型接到規(guī)劃器前面,而是重新定義「推理」和「動(dòng)作」之間的接口,讓二者真正對(duì)齊。

先看前半部分,也就是潛空間推理器。作者把它設(shè)計(jì)成一個(gè)很像人類司機(jī)的四步過程:

  • Understand
  • Recognize
  • Rethink
  • Decide

這四步看上去很直觀,但真正巧妙的地方在于,它們都不是通過自然語言完成的,而是在統(tǒng)一潛空間中隱式完成。

第一步 Understand,是先整體看懂場景。模型會(huì)把多視角視覺信息、固定駕駛提示和 ego 車狀態(tài)一起送入共享 VLM,先建立一個(gè)全局場景理解,而不是一上來就直接回歸軌跡。

第二步 Recognize,是從大量視覺信息里篩出真正和當(dāng)前駕駛動(dòng)作相關(guān)的關(guān)鍵實(shí)體。這里論文設(shè)計(jì)了一個(gè) ego-adaptive router,根據(jù)當(dāng)前自車狀態(tài)動(dòng)態(tài)選擇最重要的視覺 token,保留的通常是車道、鄰近車輛、行人、交通燈這些安全關(guān)鍵線索,而不是無差別地處理整張圖。

第三步 Rethink,則是在壓縮后的關(guān)鍵信息上再做一次 “復(fù)核式推理”,并借助一組可學(xué)習(xí)的 meta-query 來表示不同高層駕駛策略。

最后一步 Decide,輸出的也不是一句解釋文本,而是一組面向動(dòng)作生成的高層駕駛先驗(yàn)。這樣一來,模型就不再需要把推理結(jié)果先翻譯成自然語言,再從語言翻譯回動(dòng)作空間,而是直接完成從認(rèn)知到策略的內(nèi)部閉合。



二、真正落到動(dòng)作層面,它的規(guī)劃器為什么更合理?

很多自動(dòng)駕駛方法的問題,不只是上游推理方式不合適,下游軌跡生成方式也未必真正符合駕駛動(dòng)作的結(jié)構(gòu)。有些方法一次性直接回歸整條軌跡,雖然簡單,但缺少層次;有些方法依賴復(fù)雜生成過程,雖然表達(dá)能力強(qiáng),但效率和部署穩(wěn)定性不一定理想。

ColaVLA 這里的思路很清晰:駕駛軌跡本來就是分層的,所以生成過程也應(yīng)該分層。

論文提出的Hierarchical Parallel Planner有三個(gè)關(guān)鍵詞:

  • 先粗后細(xì)
  • 保持因果
  • 并行解碼

它不是把未來軌跡當(dāng)作一個(gè)扁平輸出,而是先確定粗粒度意圖,再逐步補(bǔ)足中間細(xì)節(jié)。這更像真實(shí)駕駛員的決策方式:先想清楚「往哪去」,再?zèng)Q定「具體怎么走」。

同時(shí),作者還設(shè)計(jì)了一個(gè) causality-preserving 的注意力機(jī)制,保證不同尺度之間的信息流是從粗到細(xì)、逐層細(xì)化的,而不是相互泄漏。這樣一來,多尺度結(jié)構(gòu)就不只是形式上的分解,而是真正具有因果約束的軌跡生成過程。

更重要的是,這個(gè) planner 可以在單次前向傳播中并行完成多尺度、多模式軌跡解碼,不用再像文本 CoT 那樣一步一步串行生成。



三、實(shí)驗(yàn)結(jié)果說明了什么?

從結(jié)果上看,ColaVLA 最打動(dòng)人的地方,不只是「指標(biāo)更高」,而是它同時(shí)兼顧了精度、安全和效率。

1. Open-loop:不只是預(yù)測更準(zhǔn),而且更安全

在 nuScenes 的開環(huán)評(píng)測中,ColaVLA 在動(dòng)作類方法里取得了最優(yōu)綜合表現(xiàn),平均 L2 誤差為0.30 m,平均碰撞率為0.23%。相比強(qiáng)基線 SOLVE-E2E,L2 進(jìn)一步下降,碰撞率也明顯降低。

這說明它輸出的軌跡并不只是數(shù)值上更接近真值,而是在安全性層面也更優(yōu)。



2. Closed-loop:真正體現(xiàn)方法價(jià)值的部分

在更關(guān)鍵的閉環(huán)評(píng)測 NeuroNCAP 中,ColaVLA 的平均得分達(dá)到3.48,平均碰撞率降到36.8%,明顯優(yōu)于多種前序方法。

論文特別指出,相比依賴文本推理、并使用額外數(shù)據(jù)的 ImpromptuVLA,ColaVLA 在不顯式生成文本思維鏈的情況下,依然取得了更好的閉環(huán)表現(xiàn)。

這個(gè)結(jié)果很有說服力,因?yàn)樗f明:對(duì)自動(dòng)駕駛來說,更長、更復(fù)雜的文字推理鏈,并不一定能帶來更好的真實(shí)駕駛行為;真正關(guān)鍵的,還是內(nèi)部決策表征是否適合動(dòng)作生成,以及規(guī)劃器是否具有合理的因果結(jié)構(gòu)。



3. 推理效率:它把「落地可能性」往前推了一步

效率上,ColaVLA 也給出了非常亮眼的結(jié)果。在扎實(shí)的工程優(yōu)化后,它的在 H200 上的端到端推理延遲為228 ms/frame,而對(duì)比的文本式方法整體快了5 倍到 10 倍左右。

這意味著,把推理從文本搬到潛空間,并不只是概念上更優(yōu)雅,而是真的換來了實(shí)打?qū)嵉乃俣仁找妗?duì)于強(qiáng)調(diào)閉環(huán)和實(shí)時(shí)性的自動(dòng)駕駛來說,這一點(diǎn)尤其關(guān)鍵。

四、消融實(shí)驗(yàn)最值得記住的幾點(diǎn)

這篇論文的消融實(shí)驗(yàn)也比較完整,但最值得記住的其實(shí)只有四點(diǎn)。

第一,潛空間推理本身確實(shí)有效。只要加入 latent reasoning,模型的軌跡誤差就會(huì)下降;再加入 rethink 階段,效果還會(huì)進(jìn)一步提升。這說明「先抓關(guān)鍵、再做復(fù)核」的認(rèn)知鏈條不是敘事包裝,而是真正有助于決策質(zhì)量。

第二,分層并行規(guī)劃器本身也很重要。即便把 reasoning 模塊去掉,作者的 planner 在閉環(huán)上依然明顯優(yōu)于普通 MLP 頭和 diffusion 頭,說明它確實(shí)更符合真實(shí)駕駛動(dòng)作的生成邏輯。

第三,關(guān)鍵 token 不是越多越好,而是平衡最好最重要。保留太少會(huì)丟信息,保留太多又會(huì)引入冗余,論文最終選擇了一個(gè)在表達(dá)能力和效率之間更均衡的配置。

第四,最優(yōu)的軌跡生成方式不是一次性回歸整條軌跡,而是先確定關(guān)鍵點(diǎn),再逐層補(bǔ)齊中間細(xì)節(jié),這和駕駛動(dòng)作本身的因果結(jié)構(gòu)是對(duì)得上的。

五、這篇論文真正有價(jià)值的地方是什么?

如果只把 ColaVLA 看成「又一個(gè)自動(dòng)駕駛模型」,其實(shí)低估了它。

我覺得這篇工作的更大意義在于,它提出了一個(gè)非常明確的判斷:

自動(dòng)駕駛中的推理,不一定需要顯式寫成文字。

過去很多工作默認(rèn)認(rèn)為,大模型的優(yōu)勢來自「會(huì)解釋」「會(huì)說話」「能輸出思維鏈」。但 ColaVLA 給出的答案是:在自動(dòng)駕駛這種連續(xù)控制任務(wù)里,更重要的也許不是「讓模型把思考說出來」,而是「讓模型在內(nèi)部真正想清楚,并用更適合動(dòng)作生成的方式表達(dá)出來」。

從這個(gè)角度看,它代表的是一種很值得重視的范式變化:

  • 從text reasoning轉(zhuǎn)向latent reasoning
  • 從sequential decoding轉(zhuǎn)向parallel decoding
  • 從「展示推理過程」轉(zhuǎn)向「兼顧安全、效率和閉環(huán)表現(xiàn)」

論文最后的結(jié)論也很清楚:把推理從文本遷移到潛空間,為自動(dòng)駕駛中的知識(shí)驅(qū)動(dòng)決策提供了一條更可擴(kuò)展、也更現(xiàn)實(shí)的路徑。

六、總結(jié)

如果要用一句話總結(jié) ColaVLA,我會(huì)這樣說:

它不是讓自動(dòng)駕駛大模型「更會(huì)說」,而是讓它「更會(huì)在內(nèi)部想清楚,再更快地開出來」。

這篇論文最核心的貢獻(xiàn),不只是提出了一個(gè)新模塊,也不只是刷新了幾項(xiàng)指標(biāo),而是它證明了下面幾件事:

  1. 自動(dòng)駕駛里的推理,可以不依賴顯式文本思維鏈;
  2. 潛空間推理同樣可以保留高層駕駛決策能力;
  3. 分層并行、因果一致的規(guī)劃器,更適合真實(shí)駕駛動(dòng)作生成;
  4. 當(dāng)推理形式和動(dòng)作生成真正對(duì)齊時(shí),系統(tǒng)才能同時(shí)獲得更好的安全性、效率和閉環(huán)表現(xiàn)。

對(duì)于后續(xù)自動(dòng)駕駛大模型的發(fā)展來說,這篇工作很可能代表著一個(gè)很值得繼續(xù)深入的方向:

不是把大模型硬塞進(jìn)自動(dòng)駕駛,而是重新設(shè)計(jì)一種真正適合自動(dòng)駕駛的大模型推理方式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外媒:“絕對(duì)不可能”!中國已經(jīng)能制造出足以進(jìn)行核聚變的超級(jí)鋼

外媒:“絕對(duì)不可能”!中國已經(jīng)能制造出足以進(jìn)行核聚變的超級(jí)鋼

阿纂看事
2026-04-03 21:10:57
49歲李維嘉:不知道遺產(chǎn)傳給誰

49歲李維嘉:不知道遺產(chǎn)傳給誰

大象新聞
2026-04-03 17:17:36
實(shí)錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

實(shí)錘!日本祖先真相大白:徐福傳說被科學(xué)擊碎,千年信仰轟然倒塌

行者聊官
2026-04-03 11:10:44
人老了,最舒服的日子,就這10個(gè)字

人老了,最舒服的日子,就這10個(gè)字

青蘋果sht
2026-04-02 05:56:34
Nike把旗艦跑鞋砍到5折,Hoka和Asics跟了

Nike把旗艦跑鞋砍到5折,Hoka和Asics跟了

灰度測試中
2026-04-03 09:57:33
失聯(lián)十一年!李兆會(huì)鞠躬承諾還錢,車曉評(píng)論區(qū)為何仍被刷爆?

失聯(lián)十一年!李兆會(huì)鞠躬承諾還錢,車曉評(píng)論區(qū)為何仍被刷爆?

牛鍋巴小釩
2026-04-03 14:06:40
萬科兩年虧損1300多億,如今再看萬寶之爭,難道沒有其他原因?

萬科兩年虧損1300多億,如今再看萬寶之爭,難道沒有其他原因?

番外行
2026-04-02 08:32:31
希金斯:5-8落后讓我想起了去年的決賽,和趙心童比賽將非常困難

希金斯:5-8落后讓我想起了去年的決賽,和趙心童比賽將非常困難

世界體壇觀察家
2026-04-03 07:28:31
幾十艘船只被扣押?魯比奧為巴拿馬出頭發(fā)聲,中方回了八個(gè)字

幾十艘船只被扣押?魯比奧為巴拿馬出頭發(fā)聲,中方回了八個(gè)字

愛下廚的阿釃
2026-04-04 01:16:17
自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過,結(jié)果慘遭網(wǎng)友扒光

自導(dǎo)自演?佛山雞煲老板因流量壓力自黑求放過,結(jié)果慘遭網(wǎng)友扒光

從零到一研究所
2026-04-03 15:04:26
與輝同行回應(yīng)帶貨“優(yōu)思益”:全額退款,嚴(yán)格復(fù)盤選品審核

與輝同行回應(yīng)帶貨“優(yōu)思益”:全額退款,嚴(yán)格復(fù)盤選品審核

澎湃新聞
2026-04-02 20:46:26
京滬廈一個(gè)都躲不掉!廣東隊(duì)?wèi)K遭王博“做局”,杜鋒總決賽沒戲了

京滬廈一個(gè)都躲不掉!廣東隊(duì)?wèi)K遭王博“做局”,杜鋒總決賽沒戲了

緋雨兒
2026-04-03 12:39:24
鄭麗文詳細(xì)行程公布!首日夜宿南京,又解決藍(lán)營隱患徐巧芯高興了

鄭麗文詳細(xì)行程公布!首日夜宿南京,又解決藍(lán)營隱患徐巧芯高興了

說歷史的老牢
2026-04-03 02:57:11
我去!內(nèi)娛最大的性丑聞,拍出來了

我去!內(nèi)娛最大的性丑聞,拍出來了

皮蛋兒電影
2026-03-04 14:39:25
中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

混沌錄
2026-03-31 17:03:12
中國已無退路了!美軍為中美選好了主戰(zhàn)場,決心要跟中國打場大戰(zhàn)

中國已無退路了!美軍為中美選好了主戰(zhàn)場,決心要跟中國打場大戰(zhàn)

瓦倫西亞月亮
2026-04-03 15:18:19
為什么女人在親密關(guān)系發(fā)生后,都同意男人幫她拍照呢?

為什么女人在親密關(guān)系發(fā)生后,都同意男人幫她拍照呢?

思絮
2026-04-03 10:46:18
胡雪巖破產(chǎn)前的頓悟:這世上最不能得罪的不是達(dá)官顯貴、地痞流氓

胡雪巖破產(chǎn)前的頓悟:這世上最不能得罪的不是達(dá)官顯貴、地痞流氓

近史談
2026-04-02 19:16:43
NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

懂球帝
2026-04-04 01:28:14
美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

美國對(duì)中國滲透沒白費(fèi),扶持的“內(nèi)鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
2026-04-04 05:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12677文章數(shù) 142605關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內(nèi)落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

財(cái)經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠(yuǎn)房親戚長得很像嗎?

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
本地
教育
家居

冬奧雙金夫妻:愛與榮耀,頂峰相見

房產(chǎn)要聞

小陽春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

本地新聞

跟著歌聲游安徽,聽古村回響

教育要聞

教育部:義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗(yàn)班、快慢班

家居要聞

溫馨多元 愛的具象化

無障礙瀏覽 進(jìn)入關(guān)懷版