網易首頁 > 網易號 > 正文申請入駐

元戎啟行周光：VLA的下限，已超過端到端1.0的上限

2025-08-27 12:30:39　來源: RoboX

北京舉報

分享至

2024年6月，元戎啟行CEO周光乘坐測試車經過一處紅綠燈，看到了一個不起眼的交通牌——「車輛左轉不受燈控」，但測試車依舊停下等待紅燈轉綠。

在后方不斷傳來的鳴笛催促聲中，周光意識到：即便是當時的端到端模型，也無法充分理解道路環境與通行條件。而且，許多人類能輕易察覺的潛在風險，系統卻無法感知。

同年9月，周光公開表示：“現在的VLM（端到端1.0），就相當于一個帶著學員的教練，通過語言的形式，告訴學員左轉、減速…而VLA，則是換成教練親自開車。”

也是從這時起，元戎啟行將VLA模型提升為公司級研發項目。并在反復的測試中，驗證了VLA「讓機器讀懂物理世界」的神奇能力，認定它會是Corner case泥潭中的一條新航道。

到了昨日（8月26日），元戎啟行發布全新一代輔助駕駛平臺——DeepRoute IO 2.0，該平臺搭載自研的VLA（Vision-Language-Action）模型，融合視覺感知、語義理解與動作決策三大核心能力，對比傳統端到端模型，VLA模型更擅長應對復雜路況，可謂實現了斷代式突破。

如何讓AI懂得「害怕」？

盡管如今的AI技術路線仍沒有標準答案，但是在包括汽車在內的整個具身智能行業中，VLA已經成為了代表技術能力和落地可行性的關鍵路徑。

今年，小鵬、理想相繼宣布VLA的量產消息。而元戎啟行也表示，在基于DeepRoute IO 2.0平臺的5個定點合作項目中，首批量產車即將進入市場。

據了解，DeepRoute IO 2.0可以支持激光雷達與純視覺雙版本，率先適配英偉達Drive Thor芯片，后續將拓展至更多平臺。

“在DeepRoute IO 2.0中，我們讓AI學會了‘害怕’——害怕是生物進化出的保護機制，AI也應當具備對風險的敬畏之心。”周光表示，防御性駕駛是VLA的核心目標。只有讓AI學會害怕，才是對安全真正的重視。

之所以反復強調「防御性駕駛」，是因為他深知CNN或BEV端到端系統的瓶頸所在——看不見等于不存在。

他表示，人類司機會憑借對空間遮擋關系的理解，采取謹慎策略通過復雜場景。例如，當看到人車混行的橋洞、無信號燈的路口，或者視線被遮擋嚴重時，人類是一定會減速的。

這意味著，輔助駕駛系統必須提升對高級語義和空間關系的理解能力，而上一代端到端無法做到這一點，因為BEV是難以學習空間理解的。

“VLA的下限，就已經是端到端1.0的上限了”。在發布會上，他總結了VLA模型的4大功能：空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車。

比起許多用戶認為非常炫酷的「語音交互」功能，周光認為VLA主動預判、規避風險的作用更為重要。

“語音控車功能甚至通過Rule-based就能實現，而VLA架構真正的難點，是對場景的高級語義推理，這也是其核心進化方向——CoT思維鏈。”

長時序分析，深層次推理

自去年開始，周光就已指出，VLA的關鍵特性就是思維鏈：“你需要通過多重信息來決定如何通過復雜場景，也需要不斷地與其他車輛博弈、交互，這種復雜度是規則庫無法應對的。”

他表示，短期記憶依靠視頻幀，長期記憶則借助關鍵幀與語言描述——正如人類通過文字記錄歷史，語言是對現實的高效壓縮。而VLA就是因為能夠進行長時序上下文分析，所以能處理更復雜的路況，完成更深層次的推理。

“現實駕駛環境中存在大量文字信息，例如交通標志、臨時路牌等。有些是印刷在道路上的靜態文字，可借助地圖數據；但還有很多是臨時設置，必須通過實時感知和理解才能正確處理。語言理解能力可讓車輛更好地與現實世界交互，為用戶帶來更多便利。”

例如， VLA模型能通過文本等看懂潮汐車道、公交車道、臨時限行區域等道路標志，并從多重信息中確認通行規則。

基于此，DeepRoute IO 2.0也將擁有更高階的思考能力，能夠理解交通場景中復雜的交互事件、隱藏的語義信息和邏輯推理。

除了上述功能外，VLA還具備更高的異形障礙物識別水平，并擁有記憶語音控車功能。其中，后者不僅能支持「快一點/慢一點」等基礎指令，還能記憶用戶偏好，實現個性化體驗。

通過實際體驗，我們可以發現DeepRoute IO 2.0在道路兩側停滿車輛、存在「鬼探頭」風險時，降速緩行；并在經過存在盲區的橋洞時，同樣比較嚴謹。另外，對于多種載貨兩輪/三輪車輛，系統也能夠較好地識別。

周光認為，盡管目前的VLA模型仍處于「幼年期」，但其上限遠高于端到端方案：“新一代架構需要新一代芯片支持，這不是CNN時代可比的。”

算力枷鎖終將瓦解

目前，「成本」經常被認為是VLA上車的阻礙之一。而周光卻表示，DeepRoute IO 2.0不僅可面向多種主流乘用車平臺開展定制化部署，可適配的車型更是低至15萬元級別，甚至10萬元級別的車型通過優化也有機會搭載。

“從傳感器方面來看，11個攝像頭正成為主流配置；同時行業整體都在提升算力，下一代芯片將達到5000TOPS，甚至10000TOPS級別也不遠了。”

他表示，VLA與端到端1.0的主要成本差異在于芯片，其余部分基本一致。而芯片成本取決于制程工藝，目前千T級芯片算力時代已經到來，例如特斯拉2500TOPS芯片，雙芯片即可實現5000TOPS。

如今，元戎啟行的量產車輛已接近10萬臺，獲得超過10款車型的定點合作，預計第四季度的交付量還將進一步提升。

交付量的擴大，往往意味著要面臨更嚴格的市場監督，任何問題都會被放大。在這一節點，元戎啟行正式步入「2.0階段」，打通上一代端到端的瓶頸，讓輔助駕駛系統更加可靠，體驗感更強。

周光預計， Thor+VLA能帶來的直觀效果，是絕大多數人都會認為這樣的系統「是好用的」，城市接管可能達到百公里起步的水平。

“真正的智能駕駛必須依賴大模型，未來必將全面轉向基于GPT架構的端到端系統。回顧大模型的發展，它經歷了從通才到專家系統的演進：GPT-4屬于‘通才’，如今進入強化學習階段，模型正變得更專業、更可靠。”

他認為，雖然技術發展沒有標準答案，但實際上每個關鍵階段都無法跳過：從有圖、無圖、端到端到VLA模型，整個發展過程必不可少，不可能完全繞過。同時，他也呼吁行業應關注大模型整體發展，避免局限在自動駕駛領域。

“技術發展需要時間，時間將驗證一切。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

RoboX

關注智能汽車、機器人在內的具身智能前沿科技

237文章數 2關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

房產

本地

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

元戎啟行周光：VLA的下限，已超過端到端1.0的上限

馬斯克狂發大火箭也養不起AI 年虧50億美元

73歲騎友抄近路摔倒身亡 女兒：賠償問題無法達成共識

73歲騎友抄近路摔倒身亡 女兒：賠償問題無法達成共識

17歲賺了一百萬美元，25歲被CBA裁員

黃景瑜王玉雯否認戀情！聚會細節被扒

李強主持召開經濟形勢專家和企業家座談會

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態度原創

數毛社點評批評XSS！《紅色沙漠》畫面糊成渣

28條新規落地！好房子，終于有了“廣州標準”！

12噸巧克力有難，全網化身超級偵探添亂

于小冬2026年4月油畫新作《花季》

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

73歲騎友抄近路摔倒身亡女兒：賠償問題無法達成共識

搭載第二代刀片電池及閃充技術騰勢N8L閃充版預售35萬起