輔助駕駛里面到底用純視覺,還是激光雷達,是個既陳舊又新鮮的話題。2022年特斯拉成為堅定的視覺派,大多數國內車企站在他的對面。到了2024年,有些已經推出多款搭載激光雷達產品的品牌,開始轉而推純視覺產品。今年3月之后,好像這個“燒餅”又翻過來了,激光雷達派又開始占優。
看似折騰,實則和掌握的技術階段(算力和算法、傳感器的技術水平)有關系。因此可以預見,這個話題還將持續下去,直到沒有明顯的技術瓶頸。
機器學習的四階段
先要澄清一下,不存在“純視覺 PK激光雷達”這個對決關系。沒有哪一輛車只裝了激光雷達不裝攝像頭。激光雷達定位就是打輔助的角色。所以合適的對壘雙方,應該是純視覺VS視覺+激光雷達。
乍一看,后者的傳感器組合多了一個“幫手”,就像二郎神有三只眼一樣,多少會對眼神有幫助吧。不過問題比“乍一看”要麻煩得多。
![]()
最初像Waymo嘗試做L4、L5一步到位的企業,測試車上都頂著“花盆”——昂貴的機械旋掃雷達,價格當時高達10萬美元,比街上跑的絕大多數車都貴。當時不僅是攝像頭能力不行的問題,而在于當時的算法認知,還停留在“專家學習系統”層面,就是將知識和規則,用算法的方式定好,交給機器去執行。
后來往前走了一步,簡稱為“特征工程”。就是將特征提取出來,交給機器去學習。這和人開車的思路,開始有點像了,因為人類天生對變化特別敏感。比如顏色、形狀、大小、位置變了,對注意力影響大。注意力機制也是構建AI架構的靈感來源。人傾向于將車窗外的場景變化,簡化為“可駕駛”、“不可駕駛”兩種狀態,再疊加常識(運動推斷)和交通規則,決定駕駛行為。
到了第三階段,即“機器學習”,可以直接將原始數據和少數標簽交給機器,讓機器自己學習特征。這一階段,AI取得了驚人的發展。機器在圖像(語音)識別、分類能力上開始超過人類。
這個時候,特斯拉發明了一個算法,叫“Occupancy NetWork”(占用網絡)。簡單說,就是將運動路徑上三維空間虛擬切割無數立體小方塊,如果檢測到某個小方塊被占用,還分為移動和非移動,那么就可以規避。不會出現以前那種、只有識別出是啥東西才能響應的弊端。以前特斯拉有過無視翻倒的貨車、突然出現的牛等“非結構性”障礙等負面案例。
這一技術是特斯拉走純視覺路線的最大底氣。不過馬斯克說,既然人能用兩只眼開車,純視覺就沒什么問題。
這屬于偷換概念。原因在于,機器尚未達到第四階段,即機器可以像人一樣感知和理解世界;像人一樣在幾乎所有環境當中進行學習和適應,即實現“通用人工智能”。因此,純視覺至少現在還比人的能力低。
純視覺不如人眼,問題在于大腦
這種前提下,討論AEB(主動剎車)的速度上限,其實沒有太大價值。可以理解為商業話術。
純視覺劣于人的能力,已經不再是“眼神”(也就是傳感器能力)問題。人的大腦,出生時自帶一個模型,準確說只有一個模型框架,數據量非常少。比如出生3個月的嬰兒,視覺已經沒大問題(能感知5米外的物體,但缺乏細節),從未見過蛇。當其見到蛇的視頻之后,表現出明顯不安——瞳孔收縮、肢體語言僵硬、哭鬧等。這就是模型殘留的少量參數。大量參數都是后天習得,而且在此過程中(0-3歲),人類裁剪了大量不活躍的腦神經連接——代價是人喪失了這段時間的長期記憶。
相對人的能力,智能機器很難預測行為的所有潛在后果。其行為經常出現“不可解釋”的現象,因為它缺乏人類的經驗。任何形式化的方法,不可能為所有對象和行為建立模型。比如,如何與其他智能體互動、合作,并預料到會導致什么。機器智能仍有重大缺陷。這不是訓練量可以解決的。
![]()
端到端的中間結果,往往不可解釋。對這類不可控的可能性,我們都是直接上硬規則來做兜底約束。比如,告訴機器,不管如何動作,絕對不能闖紅燈。但是救護車、消防車就可以在確認安全前提下闖紅燈。為了避免規則的復雜化,應用場景必然受限。
所以,盡管攝像頭對于強光、照度快速變化、低照度、視線受阻(雨雪霧風)的應對能力提高了很多,但大問題在腦子里(算力和算法),因此也別指望當前階段純視覺能夠替代人。
激光雷達是個好輔助嗎?
這個時候,外掛(激光雷達)再度有了用武之地。預測能力不行沒關系,真實世界是三維的,純視覺的本質是三維世界的投影(二維圖像)。缺少的信息維度(深度),激光雷達直接測得。而且,視覺是被動接受光信號,光線的影響不可控。其實人眼也有這個問題,同樣一輛車,夜晚和白天看起來可能完全不同。激光雷達是主動照射,不受可見光影響。
視覺感知的是顏色和亮度,激光雷達感知的是輪廓。對同一輛車,外形輪廓往往更穩定,而顏色和亮度,在不同光線下是不穩定的。理論上,激光雷達測得的數據更可信。
但是,激光雷達的成本雖然壓下來了(仍然比攝像頭貴15倍),但激光雷達的缺陷也與其主動工作方式有關。距離遠了,激光的發散角擴大,能量密度降低很快(和距離的平方成反比衰減)。
![]()
目前的技術水平,光照好的時候,對200米以外的物體,192線激光雷達可以獲得的信息,其實不如800萬像素的攝像頭。這樣的條件下,純視覺算法可以輕易識別出類型,但視覺+激光雷達,花費大量算力處理點云-圖像融合數據,結果辨識能力反而不如純視覺。
一線的技術高管告訴我們,和刻板印象相反,激光雷達對天氣非常敏感。如果不是特別大的雪,不會過于遮擋視線(人類大腦和視覺算法都會自動濾除),但這些半透明的小玩意,會在激光雷達幾米處形成一團噪點,很難穿透雪花這種本該無視的障礙物。
真正能無視各種極端天氣的,其實是毫米波雷達(波長:毫米波>攝像頭>激光雷達),因為波長越長,繞射性越好。但也因為這一點,毫米波雷達的精度相當感人,無法精確測距。
實際應用中,激光雷達會掃射到很多物體,產生很多回波(多徑效應),信號混疊在一起,給辨識帶來困難。激光雷達處理的幀率,遠不及攝像頭。低幀率看遠距離的高速物體,誤差比攝像頭大。這其實是算力的鍋。激光雷達的信息密度大,無用信息多,吃算力也多。
也因為這些缺陷,激光雷達不能單獨挑大梁,只用來補盲。這樣一來,問題就變成激光雷達只作為特殊條件下輔助,值不值得。所謂特殊條件,低照度、簡單路況、高速行駛,即攝像頭看不了太遠,但又需要系統提供較長“接管窗口”的時候,激光雷達是不錯的補盲手段。
碰到這樣的場景, 純視覺輔助的駕駛者,想確保安全,有兩種選擇:一種是使用輔助駕駛,速度放慢(低照度時必須降至100公里時速以下),給可能的接管留出5~10秒的時間;另一種選擇是人工開,不進入輔助駕駛。
激光雷達能解決類似的困境。綜合成本貴上1~2萬。何去何從,可以自己選擇了。無論如何,理智的駕駛者會避免自身處于危險邊緣。激光雷達的確能在某些場景帶來更大的自由度。
當然,如果天氣過于極端,如果多數人不敢出行的天氣(比如超級大風、大雪大雨等),建議靠邊等待,而非仰仗輔助駕駛,行人所不能之事。
如此看來,將兩種不同適應寬度、不同成本的方案放在一起互掐,即便形成了結論,也要加繁瑣的限定條件。而且,隨著技術的發展,結論可能改變。
比如算力變得廉價,根本不在乎激光雷達吃掉一部分,或者濾波算法可以解決各種融合問題,能處理的極端場景也會增加。未來也可能出現其他傳感器,低成本下實現更寬泛的視覺+3D測量,但至少目前我們還看不到。
注:圖片部分來源網絡,如有侵權,聯系刪除。
風阻爭端,關于工程問題更為復雜
L3,今年真能商業化嗎關稅大戰,裂解了全球汽車價值鏈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.