網易首頁 > 網易號 > 正文申請入駐

AI Agent顛覆了端到端了嗎？

2025-08-03 21:10:57　來源: 新浪汽車出品

北京舉報

分享至

這幾個月，已經有些科技企業和主機廠試圖用AI Agent（智能體）做自動駕駛，聲稱能規避端到端的弊端。當然，這些做法也沒大聲嚷嚷。一個是監管因素，另一個可能是AI Agent才剛剛起步。

端到端的長尾能力，為什么不行

經過一年多的商業化落地，端到端+VLM（視覺語言大模型）在長尾場景中表現不如期待，背后的原因是決策短視。在中我們曾經討論過，端到端往往以單幀畫面、單步動向作為決策依據，缺乏對未來數秒內連貫的規劃能力，沒有形成“策略序列”。這一點上不如人類。其實無須長尾，就一個簡單的左轉，端到端也是只考慮下一秒動作，沒有完整的通過路口的規劃。之所以實際動作看上去還算連貫，是由多個“下一秒動作”串起來。一旦中間出岔子，需要改變計劃的時候，系統就缺乏應變能力。

背后還有一個原因，就是端到端的感知是被動的。模型訓練階段就固定接收低維度文本指令（如速度、導航信息）和完整視覺信息。對圖像的關鍵細節缺乏關注，形成視覺忽視。到底什么才被認定為“關鍵細節”，是人類駕駛的核心技能。

比如等待左轉的經典場景：左轉燈剛亮，右側人行橫道遠端晃過一團影子。電光火石間，人馬上就察覺到存在兩個不合理之處：一個是人行橫道方向正處于紅燈，另一個即便在人行道上，這個速度也絕對不是行人。只有注意到“異常”，才會及時剎車。多半是外賣電動車順人行橫道闖紅燈搶行。

如果只注重信號燈、交通規則和前一秒的畫面，就不會有制動決策。端到端的無依托左轉向來有問題，就是因為處理不了這種復雜場景。

對于不確定又很關鍵的視覺信息，人類司機的處理方式，通常都是“再看一眼”或“湊近點看”。如果情況緊急則采取保守策略。

顯然，人類應對長尾的行為，包含了策略序列和主動感知兩個重要能力。

世界模型的合成數據，兩種大模型訓練效果不同

有些企業就想用AI Agent的方式來解決解決長尾問題。在線互動上，智能體已經獲得廣泛應用。想想打銀行客服電話，對面是誰接起電話。智能體不止能當客服和電子助手，在線教學、客戶專業支持、數據庫助手……看上去智能體似乎更勝任與人類互動。在車端，智能體也首先用于座艙互動。

將其作為聊天助手，其引擎通常就是LLM（大語言模型）。如果搭建VLA（語言-視覺-行為大模型），即從思考范式上成為一個駕駛智能體（模擬司機），是不是能夠更好地解決長尾問題，讓智駕具備L3能力呢。

兩者都需要大模型訓練、蒸餾和車端轉移小模型。不過，兩者區別幾乎體現在所有環節。端到端為了應對長尾，需要大量實車數據。世界模型生成的合成數據，用于端到端訓練效果不好。

簡單說，合成數據可以擴充樣本，但是沒辦法解決“零樣本泛化”的問題。比如我們用各種“鬼探頭”合成數據訓練端到端大模型，感覺練得也挺好的，結果一上路，碰到一輛驢車，又懵了。長尾是無窮無盡的，非結構性場景最好由認知推動，由數據推動的端到端訓練效果不理想。模擬考經常得高分，一上正式考場就考砸。

Agent可以玩命用世界模型訓練。合成環境對現實物理模擬很粗糙，但Agent可以通過視覺軌跡獎勵，優化決策。與端到端的被動視覺不同，Agent通過多次主動視覺-動作的反饋，探索合理策略。這和人思維模式很像了，面對陌生場景，用保守方法（低速跟前車，隨時改變策略）試錯。而不是像端到端那樣的內部黑箱。

看和聽的能力

主動視覺有兩個特征，一個是“對齊”，另一個是自動調整權重。調權重很容易理解，在雨雪霧天氣里面，激光雷達和攝像頭都會受到強干擾，而且這些干擾很難用濾波手段去除。這個時候，如果降低攝像頭感知權重，提升毫米波雷達權重，將減少誤判。人也是如此，黑暗的環境下，人雖然不能像蝙蝠那樣發出超聲波探路，但不由自主“豎起耳朵”專注于聲音，同時降低視覺敏感度。

而“對齊”也是人類的核心技能。面對一幅畫面或者動態圖，如果有人說，找找畫面里面的“半個蘋果”，你還會關注每個細節嗎？顯然不，你只會快速掃描整幅圖，去找那個符合語言特征的玩意。順便說一句，駕駛當中，交通標志標線、各種畫面、人類口語，都是“大語言”。

這就是語言和圖像的“對齊”。一句話一般只與畫面中特定細節對應。如果提供一個長文本，任何受過基礎教育的人，也是迅速找到與圖畫描述有關的詞句。然后和畫面特定位置建立映射。Agent也具有這個能力，即建立了跨模態語義匹配與融合能力。

一輛車如果由AI Agent駕駛，人可以隨時發號施令：“跟住前面第二輛紅車，別管眼前這輛白的”。系統自己會選擇“一組”合理策略執行這道模糊的命令。

想做到這一點，需要完成視覺語言的基座訓練（主要練“對齊”），思維-動作后訓練（其中關鍵是擴散模型，持續預測軌跡和環境，以便調整），強化訓練（包含剛才說的獎勵模型）。這些訓練完成之后，能在車端運行的AI Agent也就有了。

內化規則

和端到端需要另加規則兜底不同，AI Agent可以內化規則，就通過獎勵函數學習的方式。比如讓行救護車、消防車等，Agent計算“讓行代價=延誤時間×急迫系數”、“不讓行風險=事故概率×傷亡可能性”等量化規則，而非依賴一堆條件語句。

AI Agent的核心突破在于，分層推理將數據轉化為可交互的知識，其訓練過程更接近人類駕駛員的經驗積累模式——在理解規則的基礎上通過實踐優化策略。也因為同樣原因，人可以與AI Agent互動，參與駕駛。這是“人機共駕”的高級階段，不是通過控制權交接，而是用語言就能互動和干預。

語言映射和決策-行為多次反饋機制，與人開車的方式也很類似。與端到端相比，強學習的AI Agent更像人，其推理結果和行為模式都可以驗證和反推，與端到端不同。

兩者暫時各擅勝場

說了這么多AI Agent的優點，是不是說它可以一腳將端到端踢開，成為智駕主流？AI Agent有個很大的缺點——決策時間長，都是秒級的。對于一些緊急情況，顯然不行。因此有些企業試圖讓端到端主導99%的L2場景，即輕量化思考；只有1%左右的長尾場景，由AI Agent來完成復雜博弈。后者的思維鏈也不能太長，最多三四層。再長的話人受不了，就像臨門一腳思考人生一樣詭異。

當然這是實驗性質的。兩種架構融合在一起，才有商業化部署的價值（比如云端協同）。如果能為世界模型開發出高保真物理引擎，強化學習可能訓練出同時具備精準控制和復雜博弈能力的時敏型駕駛模型。

這需要解決三個問題：邏輯鏈的實時性瓶頸、神經符號系統保障決策的可解釋性、跨場景認知遷移機制。

當前條件下，端到端方案仍是L2量產的最優解。雖然沒摸到其能力邊界，但有能力登上L3高臺階的，大概率是AI Agent，只要解決其思考時長問題。而復雜泊車等非時敏型場景，現在AI Agent就已經解決得很好。

自動駕駛的核心矛盾，一直都是無限場景空間與有限訓練資源的對抗。端到端方案更傾向于通過實車數據提升數據利用效率，AI Agent則通過決策范式以降低數據依賴。兩者關系如同內燃機與電動機——短期并存滿足不同場景需求，長期催生融合新架構。或者還有一種可能，就是其中一種解決自身瓶頸，從而取代對方。看長期的話，AI Agent更有希望做到這一點。

注：圖片部分來源網絡，如有侵權，聯系刪除。

“消失的前車”透露了智駕哪方面缺陷？

克服AI幻覺？也許在開智駕倒車

2025過半，整車市場終局的端倪

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.