網易首頁 > 網易號 > 正文申請入駐

從感知到預判：世界模型如何讓自動駕駛突破 “老司機” 瓶頸

2025-07-15 11:42:16　來源: 山自

北京舉報

分享至

當 Waymo 的無人車在舊金山街頭日均完成 1.4 萬單接送任務時，司機們的評價卻始終帶著一絲調侃 ——“這車有點楞”。它能精準停在紅燈前，卻讀不懂外賣小哥突然變道的意圖；能在暴雨中識別車道線，卻猜不透前車雙閃背后的緊急狀況。自動駕駛技術看似已逼近實用門檻，卻始終隔著一層 “常識” 的窗戶紙。這層窗戶紙的背后，是 AI 模型從 “看見” 到 “理解” 再到 “想象” 的進化之路，而世界模型（World Model）的出現，正讓自動駕駛朝著 “老司機” 的直覺思維加速邁進。

從 “模塊化流水線” 到 “認知閉環”

當前量產自動駕駛系統的主流架構，像一條精密運轉的 “模塊化流水線”。攝像頭與激光雷達將現實世界拆解成 3D 點云和 2D 語義標簽，預測模塊基于歷史軌跡推算目標下一步動作，最后由規劃器計算出方向盤轉角與油門力度。這種 “感知 - 預測 - 規劃” 的割裂設計，就像給機器裝上了高精度的眼睛和手腳，卻忘了賦予它思考的大腦。

在復雜交通場景中，這套系統的短板暴露無遺。當紙箱被狂風卷起時，它無法預判落點；當小孩在路邊追逐皮球時，它難以想象沖出斑馬線的可能性。問題的核心在于，機器缺乏人類大腦那種 “有限觀測→完整建模→未來推演” 的認知能力。人類司機看到積水路面會自動減速，不是因為識別了 “積水” 標簽，而是基于 “水膜會降低摩擦系數” 的物理常識 —— 這種對世界運行規律的內在理解，正是當前 AI 最欠缺的能力。

世界模型的突破性意義，在于它構建了一個可動態推演的 “數字孿生大腦”。與傳統模型只處理單次感知 - 決策不同，它能在內部模擬出一個微型世界：輸入當前路況和假設動作，就能生成未來 3-5 秒的視覺流、激光點云變化，甚至輪胎與地面的摩擦系數波動。這種 “在腦海里預演” 的能力，讓機器第一次擁有了類似人類的 “預判直覺”。例如蘑菇車聯推出的 MogoMind 大模型，作為首個物理世界認知 AI 模型，已在國內多個城市的智能網聯項目中展現出這種特性 —— 通過實時全局感知交通流變化，提前 3 秒預判路口沖突風險，使通行效率提升 35%。

AI 模型的進化樹

純視覺模型：暴力擬合的 “原始直覺”

2016 年 NVIDIA Dave-2 的出現，拉開了純視覺自動駕駛的序幕。這個用 CNN 將攝像頭像素直接映射成方向盤角度的模型，就像剛學會走路的嬰兒，通過百萬級駕駛片段的 “肌肉記憶” 來模仿人類操作。它的優勢在于結構簡單 —— 僅需攝像頭和低成本芯片，但致命缺陷是 “見過即會，沒見過就懵”。當遇到訓練數據外的場景，比如側翻的卡車、逆行的摩托車時，系統就會瞬間失效。這種 “數據依賴癥”，讓純視覺模型始終停留在 “條件反射” 階段。

多模態融合：增強感知的 “廣角鏡頭”

2019 年后，BEV（鳥瞰圖）技術成為行業新寵。激光雷達點云、毫米波雷達信號、高精地圖數據被統一投射到俯視圖上，再通過 Transformer 進行跨模態融合。這種技術解決了 “攝像頭視角盲區” 的物理局限，能精確計算出 “左前方 30 米有行人” 的空間位置。但它本質上仍是 “感知增強”，而非 “認知升級”。就像給機器裝上了 360 度無死角的監控攝像頭，卻沒教會它思考 “行人拎著鼓起的塑料袋，下一步可能會遮擋視線”。

視覺 - 語言模型：會 “說話” 的感知器

GPT-4V、LLaVA-1.5 等視覺 - 語言大模型（VLM）的崛起，讓 AI 第一次能 “看圖說話”。當看到前車急剎時，它能解釋 “因為有貓竄出”；當識別到道路施工時，會建議 “繞行左側車道”。這種將視覺信號轉化為語言描述的能力，看似讓機器具備了 “理解” 能力，但在自動駕駛場景中仍存局限。

語言作為中間載體，必然丟失物理細節 —— 互聯網圖文數據里不會記錄 “濕井蓋摩擦系數下降 18%” 這種專業參數。更關鍵的是，VLM 的推理基于文本相關性，而非物理規律。它可能因為 “暴雨” 和 “減速” 在語料中高度相關而給出正確決策，卻無法理解背后的流體力學原理。這種 “知其然不知其所以然” 的特性，讓它難以應對極端場景。

視覺 - 語言 - 動作模型：從 “說” 到 “做” 的跨越

2024 年登場的 VLA（視覺 - 語言 - 動作模型）邁出了關鍵一步。NVIDIA VIMA 和 Google RT-2 能直接將 “把杯子遞給我” 的語言指令，轉化為機械臂的關節角度；在駕駛場景中，可根據視覺輸入和語音導航生成轉向動作。這種 “端到端” 的映射跳過了復雜的中間邏輯，讓 AI 從 “說得出” 進化到 “做得到”。

但 VLA 的短板依然明顯：它依賴互聯網級別的圖文 - 視頻數據，缺乏對物理世界的微分理解。當面對 “結冰路面需要提前 3 倍剎車距離” 這類場景時，基于數據統計的模型無法推導出精確的物理關系，只能依賴相似場景的經驗遷移。在千變萬化的交通環境中，這種 “經驗主義” 很容易失效。

世界模型：會 “想象” 的數字大腦

世界模型與上述所有模型的本質區別，在于它實現了 “預測 - 決策” 的閉環推演。其核心架構 V-M-C（Vision-Memory-Controller）形成了類似人類大腦的認知鏈條：

Vision 模塊用 VQ-VAE 將 256×512 的攝像頭畫面壓縮成 32×32×8 的潛碼，像人類視覺皮層一樣提取關鍵特征；Memory 模塊通過 GRU 和混合密度網絡（MDN）存儲歷史信息，預測下一幀潛碼分布，如同大腦海馬體處理時序記憶；Controller 模塊則基于當前特征和記憶狀態生成動作，類似前額葉皮層的決策功能。

這套系統最精妙之處在于 “夢境訓練” 機制。當 V 和 M 模塊訓練完成后，可脫離實車在云端以 1000 倍實時速度推演 —— 相當于 AI 在虛擬世界里每天 “狂飆” 100 萬公里，用零成本積累極端場景經驗。當真實世界遇到類似情況時，機器就能基于 “夢境” 中的預演做出最優決策。

給世界模型裝上 “牛頓定律引擎”

世界模型要真正勝任自動駕駛，必須解決一個核心問題：如何讓 “想象” 符合物理規律？英偉達提出的 “物理 AI” 概念，正為世界模型注入 “牛頓定律引擎”，讓虛擬推演擺脫 “空想”，具備現實指導意義。

神經 PDE 混合架構是其中的關鍵技術。通過傅里葉神經算子（FNO）近似流體力學方程，模型能實時計算出 “雨天輪胎水花飛濺軌跡”“側風對車身姿態的影響” 等物理現象。在測試場景中，裝備該技術的系統對 “積水路面剎車距離” 的預測誤差從 30% 降至 5% 以內。

物理一致性損失函數則像一位嚴格的物理老師。當模型 “幻想” 出 “2 噸重 SUV 在 0.2 秒內橫向平移 5 米” 這種違反慣性定律的場景時，會受到嚴厲懲罰。通過數百萬次類似糾錯，世界模型逐漸學會 “腳踏實地”—— 在想象中自動遵守物理法則。

多粒度 Token 物理引擎更進一步，將世界拆解為剛體、柔體、流體等不同物理屬性的 token。當模擬 “前車掉落床墊” 的場景時，模型會同時計算床墊的剛體運動軌跡和空氣流場的推力，最終生成符合空氣動力學的飄移路徑。這種精細化建模，讓預測精度提升 40% 以上。

這些技術的疊加效果，賦予了自動駕駛 “反事實推理” 能力 —— 這正是人類老司機的核心競爭力。當遇到突發狀況時，系統能在毫秒級時間內模擬 “不減速會碰撞”“急打方向會側翻” 等多種可能性，最終選擇最優解。傳統系統只能 “事后反應”，而世界模型卻能 “未卜先知”。蘑菇車聯的 MogoMind 在這方面已有實際應用，其道路風險實時預警功能，能在暴雨天氣提前 500 米提醒駕駛員前方路段積水風險，正是物理規律建模與實時推理結合的典型案例。

世界模型的落地三級跳

世界模型從理論走向量產，需要跨越 “數據、算力、安全” 三座大山。行業已形成清晰的落地路線圖，正沿著 “離線增強 - 在線學習 - 端到端控制” 的路徑穩步推進。

2024 年下半年啟動的 “離線數據增廣” 階段，已顯現出實用價值。國內頭部車企利用世界模型生成 “暴雨天行人橫穿”“貨車遺撒障礙物” 等極端場景視頻，用于訓練現有感知系統。實測數據顯示，這類 corner case 的誤報率下降 27%，相當于給自動駕駛系統打了 “疫苗”。

2025 年將進入 “閉環影子模式” 階段。輕量級 Memory 模型將嵌入量產車，以每秒 5 次的頻率 “暢想” 未來 2 秒的路況。當 “想象” 與實際規劃出現偏差時，數據會被回傳至云端。這種 “邊開邊做夢” 的眾包學習模式，讓世界模型像人類司機一樣，通過日常通勤持續積累經驗。蘑菇車聯已在桐鄉部署的全息數字孿生路口，正是通過實時采集路口 300 米范圍內的交通動態，為世界模型的在線學習提供了真實數據底座。

2026-2027 年的 “端到端物理 VLA” 階段，將實現質的飛躍。當車端算力突破 500TOPS、算法延遲降至 10 毫秒以內時，V-M-C 全鏈路將直接接管駕駛決策。屆時，車輛不再區分 “感知、預測、規劃”，而是像老司機一樣 “一眼看穿全局”—— 看到放學的孩子就自動減速，發現路面異常就提前變道。英偉達 Thor 芯片已為此做好硬件準備，其 200GB/s 的共享內存專為 Memory 模塊的 KV 緩存設計，能高效存儲和調用歷史軌跡數據。這種 “軟硬件協同” 的架構，讓世界模型的車端部署從 “不可能” 變為 “可實現”。

世界模型的 “成長煩惱”

世界模型的發展并非一帆風順，正面臨著 “數據饑渴”“算力黑洞”“安全倫理” 等多重挑戰。這些 “成長煩惱” 的破解之道，將決定技術落地的速度與深度。

數據瓶頸是最緊迫的問題。訓練物理級世界模型需要帶 “速度、質量、摩擦系數” 等標注的視頻數據，目前只有 Waymo、特斯拉等巨頭掌握。開源社區正試圖復刻 “ImageNet 時刻”—— 清華大學 MARS 數據集已開放 2000 小時帶 6D 位姿的駕駛片段，為中小企業提供了入場券。

算力成本的高企同樣令人卻步。訓練 10 億參數的世界模型需千卡 A100 運行 3 周，成本超百萬美元。但混合精度訓練、MoE 架構等技術創新，已將算力需求降低 4 倍；8 位量化推理更讓車端功耗控制在 25 瓦，為量產鋪平道路。

安全可解釋性的爭議則觸及更深層的信任問題。當模型的 “想象” 與現實不符時，如何界定責任？行業共識是采用 “保守策略 + 人機共駕”：當預測碰撞概率超過 3% 時，系統自動降級為輔助駕駛，提醒人類接管。這種 “留有余地” 的設計，在技術完善前筑起安全防線。

倫理邊界的討論則更具哲學意味。如果模型在虛擬訓練中 “撞死” 數字行人，是否會形成暴力偏好？MIT 研發的 “數字孿生沙盒” 正試圖解決這一問題 —— 在仿真環境中預演 “電車難題” 等極端場景，通過價值對齊算法確保模型的道德底線。

世界模型重構智能的定義

自動駕駛只是世界模型的第一個戰場。當 AI 能在虛擬世界中精準模擬物理規律、推演因果鏈條時，其影響將輻射到機器人、元宇宙、智慧城市等多個領域。

在家庭服務場景中，搭載世界模型的機器人能預判 “推倒花瓶會摔碎”，從而調整動作幅度；在工業生產中，系統可提前模擬 “機械臂抓取高溫零件的熱變形”，避免事故發生。這些能力的本質，是 AI 從 “工具執行者” 進化為 “場景理解者”。

更深遠的影響在于對 “智能” 定義的重構。從 CNN 的 “識別” 到 Transformer 的 “關聯”，再到世界模型的 “想象”，AI 正沿著人類認知的進化路徑不斷突破。當機器能像人類一樣 “在腦海里預演未來”，智能的邊界將被徹底改寫。

或許五年后的某一天，當你的車提前 3 個路口就規劃出 “零紅燈” 路線，當機器人主動幫你扶住即將傾倒的咖啡杯時，我們會突然意識到：世界模型帶來的不只是技術進步，更是一場關于 “機器如何理解世界” 的認知革命。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.