2024年6月,元戎啟行CEO周光乘坐測試車經過一處紅綠燈,看到了一個不起眼的交通牌——「車輛左轉不受燈控」,但測試車依舊停下等待紅燈轉綠。
在后方不斷傳來的鳴笛催促聲中,周光意識到:即便是當時的端到端模型,也無法充分理解道路環境與通行條件。而且,許多人類能輕易察覺的潛在風險,系統卻無法感知。
![]()
同年9月,周光公開表示:“現在的VLM(端到端1.0),就相當于一個帶著學員的教練,通過語言的形式,告訴學員左轉、減速…而VLA,則是換成教練親自開車。”
也是從這時起,元戎啟行將VLA模型提升為公司級研發項目。并在反復的測試中,驗證了VLA「讓機器讀懂物理世界」的神奇能力,認定它會是Corner case泥潭中的一條新航道。
到了昨日(8月26日),元戎啟行發布全新一代輔助駕駛平臺——DeepRoute IO 2.0,該平臺搭載自研的VLA(Vision-Language-Action)模型,融合視覺感知、語義理解與動作決策三大核心能力,對比傳統端到端模型,VLA模型更擅長應對復雜路況,可謂實現了斷代式突破。
![]()
如何讓AI懂得「害怕」?
盡管如今的AI技術路線仍沒有標準答案,但是在包括汽車在內的整個具身智能行業中,VLA已經成為了代表技術能力和落地可行性的關鍵路徑。
今年,小鵬、理想相繼宣布VLA的量產消息。而元戎啟行也表示,在基于DeepRoute IO 2.0平臺的5個定點合作項目中,首批量產車即將進入市場。
據了解,DeepRoute IO 2.0可以支持激光雷達與純視覺雙版本,率先適配英偉達Drive Thor芯片,后續將拓展至更多平臺。
![]()
“在DeepRoute IO 2.0中,我們讓AI學會了‘害怕’——害怕是生物進化出的保護機制,AI也應當具備對風險的敬畏之心。”周光表示,防御性駕駛是VLA的核心目標。只有讓AI學會害怕,才是對安全真正的重視。
之所以反復強調「防御性駕駛」,是因為他深知CNN或BEV端到端系統的瓶頸所在——看不見等于不存在。
![]()
他表示,人類司機會憑借對空間遮擋關系的理解,采取謹慎策略通過復雜場景。例如,當看到人車混行的橋洞、無信號燈的路口,或者視線被遮擋嚴重時,人類是一定會減速的。
這意味著,輔助駕駛系統必須提升對高級語義和空間關系的理解能力,而上一代端到端無法做到這一點,因為BEV是難以學習空間理解的。
![]()
“VLA的下限,就已經是端到端1.0的上限了”。在發布會上,他總結了VLA模型的4大功能:空間語義理解、異形障礙物識別、文字類引導牌理解、記憶語音控車。
比起許多用戶認為非常炫酷的「語音交互」功能,周光認為VLA主動預判、規避風險的作用更為重要。
“語音控車功能甚至通過Rule-based就能實現,而VLA架構真正的難點,是對場景的高級語義推理,這也是其核心進化方向——CoT思維鏈。”
長時序分析,深層次推理
自去年開始,周光就已指出,VLA的關鍵特性就是思維鏈:“你需要通過多重信息來決定如何通過復雜場景,也需要不斷地與其他車輛博弈、交互,這種復雜度是規則庫無法應對的。”
他表示,短期記憶依靠視頻幀,長期記憶則借助關鍵幀與語言描述——正如人類通過文字記錄歷史,語言是對現實的高效壓縮。而VLA就是因為能夠進行長時序上下文分析,所以能處理更復雜的路況,完成更深層次的推理。
![]()
“現實駕駛環境中存在大量文字信息,例如交通標志、臨時路牌等。有些是印刷在道路上的靜態文字,可借助地圖數據;但還有很多是臨時設置,必須通過實時感知和理解才能正確處理。語言理解能力可讓車輛更好地與現實世界交互,為用戶帶來更多便利。”
例如, VLA模型能通過文本等看懂潮汐車道、公交車道、臨時限行區域等道路標志,并從多重信息中確認通行規則。
基于此,DeepRoute IO 2.0也將擁有更高階的思考能力,能夠理解交通場景中復雜的交互事件、隱藏的語義信息和邏輯推理。
除了上述功能外,VLA還具備更高的異形障礙物識別水平,并擁有記憶語音控車功能。其中,后者不僅能支持「快一點/慢一點」等基礎指令,還能記憶用戶偏好,實現個性化體驗。
![]()
通過實際體驗,我們可以發現DeepRoute IO 2.0在道路兩側停滿車輛、存在「鬼探頭」風險時,降速緩行;并在經過存在盲區的橋洞時,同樣比較嚴謹。另外,對于多種載貨兩輪/三輪車輛,系統也能夠較好地識別。
周光認為,盡管目前的VLA模型仍處于「幼年期」,但其上限遠高于端到端方案:“新一代架構需要新一代芯片支持,這不是CNN時代可比的。”
算力枷鎖終將瓦解
目前,「成本」經常被認為是VLA上車的阻礙之一。而周光卻表示,DeepRoute IO 2.0不僅可面向多種主流乘用車平臺開展定制化部署,可適配的車型更是低至15萬元級別,甚至10萬元級別的車型通過優化也有機會搭載。
“從傳感器方面來看,11個攝像頭正成為主流配置;同時行業整體都在提升算力,下一代芯片將達到5000TOPS,甚至10000TOPS級別也不遠了。”
他表示,VLA與端到端1.0的主要成本差異在于芯片,其余部分基本一致。而芯片成本取決于制程工藝,目前千T級芯片算力時代已經到來,例如特斯拉2500TOPS芯片,雙芯片即可實現5000TOPS。
如今,元戎啟行的量產車輛已接近10萬臺,獲得超過10款車型的定點合作,預計第四季度的交付量還將進一步提升。
交付量的擴大,往往意味著要面臨更嚴格的市場監督,任何問題都會被放大。在這一節點,元戎啟行正式步入「2.0階段」,打通上一代端到端的瓶頸,讓輔助駕駛系統更加可靠,體驗感更強。
周光預計, Thor+VLA能帶來的直觀效果,是絕大多數人都會認為這樣的系統「是好用的」,城市接管可能達到百公里起步的水平。
![]()
“真正的智能駕駛必須依賴大模型,未來必將全面轉向基于GPT架構的端到端系統。回顧大模型的發展,它經歷了從通才到專家系統的演進:GPT-4屬于‘通才’,如今進入強化學習階段,模型正變得更專業、更可靠。”
他認為,雖然技術發展沒有標準答案,但實際上每個關鍵階段都無法跳過:從有圖、無圖、端到端到VLA模型,整個發展過程必不可少,不可能完全繞過。同時,他也呼吁行業應關注大模型整體發展,避免局限在自動駕駛領域。
“技術發展需要時間,時間將驗證一切。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.