對(duì)話小米輔助駕駛團(tuán)隊(duì)：兩年三階，一場以體驗(yàn)為終點(diǎn)的技術(shù)馬拉松

2026-04-08 21:42:55　來源: 36氪

北京舉報(bào)

分享至

今天在何處聚焦資源，
明天便可能在哪里贏得市場。

在智能電動(dòng)車競賽中，輔助駕駛的角逐早已成為決定勝負(fù)的重中之重。

2026年3月，隨著新一代SU7發(fā)布，小米正式推出基于XLA認(rèn)知大模型的新一代輔助駕駛方案。這不僅是一次技術(shù)路線的關(guān)鍵轉(zhuǎn)折，也讓小米把“體驗(yàn)優(yōu)先”的思路推進(jìn)到新的階段。

這個(gè)一度被行業(yè)視為“后來者”的玩家，如今正憑借一套清晰而迅猛的技術(shù)進(jìn)化路徑，走出一條聚焦用戶體驗(yàn)、務(wù)實(shí)演進(jìn)的新派道路。

回顧小米輔助駕駛的發(fā)展歷程，這是一段小米從跟隨行業(yè)主流技術(shù)路徑，到逐步形成自主技術(shù)路徑和技術(shù)思考的進(jìn)化史。

2024年3月，小米輔助駕駛在第一代SU7上首次量產(chǎn)，當(dāng)時(shí)行業(yè)正圍繞“無圖”和“開城”展開激辯，小米第一代方案也以此切入，正式進(jìn)入“無圖開城”的戰(zhàn)場。作為新選手，小米對(duì)主流趨勢的回應(yīng)是跟從。

隨著規(guī)則驅(qū)動(dòng)的無圖方案逐漸觸及天花板，行業(yè)轉(zhuǎn)向探索以數(shù)據(jù)為核心的“端到端”模型。2025年2月，小米迅速跟進(jìn)，推出第二代輔助駕駛系統(tǒng)，并于同年7月快步迭代至1000Clips版本，在數(shù)據(jù)驅(qū)動(dòng)的賽道上奮起直追。

然而，數(shù)據(jù)驅(qū)動(dòng)的“蜜月期”并未持續(xù)太久。端到端方案的體驗(yàn)高度依賴數(shù)據(jù)，難以窮盡的長尾場景成為共同挑戰(zhàn)，行業(yè)進(jìn)入瓶頸期。無人區(qū)的技術(shù)探索并無先跡可循，行業(yè)迸發(fā)出多條技術(shù)路線。

小米并未盲目持續(xù)投入數(shù)據(jù)軍備競賽，而是從第一性原理思考，將目光投向更本質(zhì)的駕駛原理——能否讓“車”像“人”一樣學(xué)會(huì)開車？

2026年3月，小米便帶來了第三代方案：XLA認(rèn)知大模型。與此前兩代不同，XLA不再僅僅依賴單純的規(guī)則或數(shù)據(jù)模式，而是試圖讓輔助駕駛系統(tǒng)真正“理解”環(huán)境，進(jìn)行常識(shí)與因果推斷。

小米輔助駕駛此刻已不再只是行業(yè)的跟隨者，在認(rèn)知驅(qū)動(dòng)的新起點(diǎn)上，小米與領(lǐng)先玩家站在了同一起跑線，甚至展現(xiàn)出了獨(dú)特的技術(shù)思考。

從規(guī)則、數(shù)據(jù)到認(rèn)知，兩年三次跨越，小米的壓力不言而喻。規(guī)則時(shí)代需補(bǔ)工程積累的課，數(shù)據(jù)時(shí)代要追趕閉環(huán)規(guī)模，后來者必須加倍奔跑。而恰在此時(shí)，行業(yè)方向再度調(diào)轉(zhuǎn)，向認(rèn)知層面進(jìn)發(fā)。小米這一次不僅果斷跟上了節(jié)奏，更是憑借對(duì)用戶體驗(yàn)的堅(jiān)持，給出了完成度與特色兼具的答案。

小米是如何做到的？36氪與小米汽車智能駕駛端到端技術(shù)負(fù)責(zé)人陳光、小米汽車智能駕駛基座大模型負(fù)責(zé)人陳龍進(jìn)行了一場深度對(duì)話。

交談中，陳龍?zhí)寡裕∶纵o助駕駛的確起步較晚、發(fā)布節(jié)奏也沒有同行那么快，“但我們一定是把體驗(yàn)最好、最安全的這個(gè)產(chǎn)品送到用戶手中”。比起博眼球，小米更愿意選擇務(wù)實(shí)的那條路。

其次，與許多單純追求技術(shù)指標(biāo)的公司不同，小米在輔助駕駛領(lǐng)域依然延續(xù)著“和用戶交朋友”的理念。

小米最終為何選擇XLA？陳光告訴36氪，在確定采用XLA路線之前，團(tuán)隊(duì)內(nèi)部也曾經(jīng)歷過技術(shù)路徑的爭論。在行業(yè)方向尚未明朗之時(shí)，各種方案看似都有其合理之處。最后如何統(tǒng)一方向？陳光表示，“團(tuán)隊(duì)一致認(rèn)可，XLA才能夠?yàn)橛脩魩碚嬲芸帷捏w驗(yàn)。”

這種體驗(yàn)優(yōu)先的思路，背后實(shí)則需要十分堅(jiān)實(shí)的技術(shù)支撐。小米在多模態(tài)認(rèn)知、具身智能交互以及工程落地已探索與實(shí)踐數(shù)年，這些經(jīng)驗(yàn)理解，便是其在輔助駕駛行業(yè)最新的技術(shù)爭奪戰(zhàn)中拔得頭籌的重要原因。

輔助駕駛的“認(rèn)知時(shí)代”剛剛啟幕，尚無成熟路徑可循。這場無人區(qū)的探索，比拼的不僅是技術(shù)，更是企業(yè)的戰(zhàn)略定力與對(duì)用戶需求的洞察深度。今天在何處聚焦資源，明天便可能在哪里贏得市場。

小米所選擇的這條融合自研基座模型、多模態(tài)認(rèn)知與具身智能數(shù)據(jù)的XLA之路，能否真正實(shí)現(xiàn)從“并跑”到“引領(lǐng)”的跨越？從接下來的對(duì)話中，一起聆聽小米如何拆解其中的邏輯、挑戰(zhàn)與未來構(gòu)想。

解析：XLA，

在認(rèn)知大模型上進(jìn)行創(chuàng)新

36氪：小米的輔助駕駛，現(xiàn)在在做什么？

陳龍：我們正在做的，就是在輔助駕駛領(lǐng)域，引入認(rèn)知大模型這個(gè)范式。我們希望通過大模型，讓輔助駕駛系統(tǒng)有對(duì)環(huán)境的認(rèn)知能力，能習(xí)得一些人類世界的常識(shí)、交通規(guī)則和一些道路實(shí)物的因果關(guān)系，從而解決端到端難以解決的長尾問題。

前段時(shí)間發(fā)布的XLA認(rèn)知大模型，就是我們推出的第一版認(rèn)知驅(qū)動(dòng)的輔助駕駛系統(tǒng)。

36氪：相比端到端，認(rèn)知大模型的優(yōu)勢是什么？

陳龍：我舉一個(gè)場景案例，比如前方道路封閉了，現(xiàn)場通過路牌和圍擋引導(dǎo)車輛繞行，過程中可能還需要臨時(shí)借道，甚至短暫跨越雙黃線。端到端版本更多是根據(jù)當(dāng)前道路形態(tài)繼續(xù)往前走，遇到這種臨時(shí)改道場景，未必能主動(dòng)理解“現(xiàn)在應(yīng)該繞行”。但XLA認(rèn)知大模型可以結(jié)合現(xiàn)場標(biāo)識(shí)和環(huán)境信息，理解這是一個(gè)“封路后按指示繞行”的場景，進(jìn)一步推理出可行路徑，并發(fā)起合理繞行。

36氪：聽起來和行業(yè)現(xiàn)在熱議的VLA大模型沒什么區(qū)別？

陳龍：VLA其實(shí)是學(xué)術(shù)界傳過來的名詞，它的意思就是視覺語言大模型。

我們XLA認(rèn)知大模型不僅僅有視覺信息，還有聲音信息、雷達(dá)信息，包括更多模態(tài)的比如導(dǎo)航之類的。我們XLA中X的第一層意思，就是我們采用了比視覺更多的模態(tài)作信息輸入。

另一方面就是我們在XLA的基座模型中，融入了具身智能相關(guān)的數(shù)據(jù)。

這里也有一個(gè)很重要的差別，行業(yè)里其他廠商的認(rèn)知大模型是在一些開源模型上打造的，小米使用的是我們自研的Xiaomi MiMo-Embodied具身基座模型。因?yàn)槭亲匝械模晕覀冊诨Ｐ偷念A(yù)訓(xùn)練階段，便加入了很多具身智能的數(shù)據(jù)。所以XLA中X的第二層含義，便是我們具備更豐富的數(shù)據(jù)。

還有一個(gè)很核心的區(qū)別。

行業(yè)里的VLA，有些會(huì)輸出大段文字推理，然后再輸出動(dòng)作。這樣有一個(gè)問題，就是速度太慢了，延時(shí)不可控。然后就有另一種說法，那索性去掉語言了。但這樣它就不是VLA了，因?yàn)楦揪蜎]用上L的推理能力了。

我們XLA使用的是潛空間推理。具體做法就是，在推理的時(shí)候使用的是機(jī)器語言，這樣的話過程和推理時(shí)延都是可控的。當(dāng)然，這個(gè)機(jī)器語言也可以解碼成文字，具備可解釋性。我們既保證了推理能力，又大大提升了效率。

36氪：現(xiàn)在業(yè)界都在探索汽車和具身智能機(jī)器人的關(guān)系，小米為什么會(huì)把具身智能的數(shù)據(jù)用到汽車上？

陳龍：我們把具身智能相關(guān)數(shù)據(jù)加進(jìn)來，主要是為了訓(xùn)練汽車的空間感知和空間推理能力。

空間感知里，有一個(gè)精度差距。汽車對(duì)周圍事物的感知精度，一般是在分米級(jí)別。但人形機(jī)器人，它平常的訓(xùn)練任務(wù)可能是抓握杯子之類的，它的數(shù)據(jù)精度可以是厘米甚至更高級(jí)別。用人形機(jī)器人的數(shù)據(jù)來訓(xùn)練汽車，那汽車的能力不就更強(qiáng)了嗎？

其次，現(xiàn)在的輔助駕駛汽車在路上開，其實(shí)沒有跟周圍事物產(chǎn)生交互的。我們的目的其實(shí)是要避免碰撞，但輔助駕駛系統(tǒng)其實(shí)并不了解碰撞到底是什么。空間推理能力，其實(shí)就是讓汽車?yán)斫猓@樣子開造成什么樣的后果。而機(jī)器人，剛好就有很多這樣的交互的數(shù)據(jù)。

我們的Xiaomi MiMo-Embodied，就是全球首個(gè)打通了輔助駕駛和機(jī)器人的具身智能基座模型。當(dāng)然，我們也發(fā)現(xiàn)，輔助駕駛和機(jī)器人的數(shù)據(jù)是互相增強(qiáng)的，所以未來我們希望輔助駕駛、機(jī)器人甚至其他小米智能設(shè)備都進(jìn)化成一個(gè)大腦，從而帶來更加無縫的體驗(yàn)。

36氪：但具身智能的數(shù)據(jù)復(fù)雜又精巧，想要跟輔助駕駛的數(shù)據(jù)融合，挑戰(zhàn)不小。

陳龍：是的。

具身智能數(shù)據(jù)，首先就包含很多不同形態(tài)的機(jī)器人本體，這些機(jī)器人本體上，傳感器的位置不一樣，甚至相機(jī)圖像的分辨率都不同。然后輔助駕駛的輸出大多是2D層面的，但機(jī)器人更多是3D空間的多關(guān)節(jié)輸出。

難就難在，如何設(shè)計(jì)一個(gè)精巧的模型結(jié)構(gòu)，讓這些不同的數(shù)據(jù)統(tǒng)一起來。當(dāng)然，目前的訓(xùn)練目標(biāo)主要是空間感知和空間推理，還不太涉及動(dòng)作級(jí)別，可能未來才需要考慮兩種任務(wù)在執(zhí)行空間上的差別。

36氪：XLA僅限于行車場景嗎？泊車上有什么進(jìn)展嗎？

陳光：我們的泊車也更智能了。這次有推出一個(gè)新功能，比如你導(dǎo)航的最終目的地是一個(gè)商場的商戶，那我們泊車會(huì)在這個(gè)商圈停車場中，尋找離這個(gè)商戶電梯口最近的停車位。目前，這個(gè)功能收到了一些用戶的好評(píng)和推薦了。

工程落地：

讓“車”像“人”，并不容易

36氪：感覺這個(gè)功能實(shí)現(xiàn)起來不容易。

陳光：我覺得難點(diǎn)有很多，但本質(zhì)上還是怎么能像人一樣，到一個(gè)相對(duì)陌生的環(huán)境時(shí)，能找到最適合自己的停車位。

車進(jìn)入一個(gè)地庫后，你需要能讀懂地庫的環(huán)境，包括一些文字標(biāo)牌、電梯口的信息之類的。如果最近的停車位都停滿了，我們就會(huì)開始漫游，找更適合的停車位。本質(zhì)上就是，怎么根據(jù)已有的這些指引信息，去到導(dǎo)航最終的目的地。

36氪：這對(duì)車端實(shí)時(shí)處理能力要求很高。

陳光：是的，比較高。我們是經(jīng)過了很大的算法優(yōu)化，才把XLA部署上去的。這種算法適配，其實(shí)也是很大的挑戰(zhàn)。我們前前后后經(jīng)歷了很多開發(fā)和工程的優(yōu)化，也踩過一些坑，做的也是有一些辛苦。在這里面，我們是有一些Know-How的。

36氪：你如何評(píng)價(jià)小米輔助駕駛的工程能力？

陳光：我個(gè)人認(rèn)為還是很比較領(lǐng)先的，現(xiàn)在還是很少有能把這么復(fù)雜的一個(gè)模型部署到這個(gè)實(shí)際的車端，并且推送給所有用戶的企業(yè)。

36氪：那小米接下來的方向會(huì)是什么？

陳龍：第一肯定是算力問題。大模型，它尺寸越大，能力就越強(qiáng)，我們當(dāng)然想在車上放一個(gè)最強(qiáng)的一個(gè)模型，但是車端是有算力限制的。我們現(xiàn)在做的潛空間推理，意義就是這個(gè)。當(dāng)然，以后會(huì)做更多。

陳光：是的，車端模型參數(shù)量的進(jìn)一步的提升，包括它在訓(xùn)練過程中如何能消費(fèi)更多的數(shù)據(jù)、能理解更多的場景，這是第一個(gè)的挑戰(zhàn)。

第二個(gè)挑戰(zhàn)，就是怎么給用戶開發(fā)更多行車和泊車的功能，進(jìn)一步提升產(chǎn)品體驗(yàn)，特別是新功能能不能給用戶帶來更多驚喜。

升級(jí)：優(yōu)質(zhì)數(shù)據(jù)、

基座模型與仿真世界缺一不可

36氪：認(rèn)知大模型的優(yōu)化也依賴數(shù)據(jù)嗎？

陳龍：數(shù)據(jù)肯定是一方面，我們持續(xù)需要高質(zhì)量的數(shù)據(jù)，另一方面就是模型能力本身，尤其是基座模型。

剛剛提到，有些廠商會(huì)用開源的基座模型。這里有一個(gè)問題，你并不知道這些開源模型是怎么做預(yù)訓(xùn)練的，它可能沒有很細(xì)致的數(shù)據(jù)清洗和標(biāo)準(zhǔn)，甚至還會(huì)使用到網(wǎng)上比較抽象的、危險(xiǎn)的信息。這些東西反映到最終的駕駛行為時(shí)，可能會(huì)引發(fā)蝴蝶效應(yīng)，造成很大風(fēng)險(xiǎn)。

但從頭做基座大模型非常不容易，第一是需要一個(gè)很強(qiáng)的團(tuán)隊(duì)，然后是數(shù)據(jù)篩選和清洗工作，再要搭建調(diào)試自己的Infra系統(tǒng)，還要有一套評(píng)測指標(biāo)。并且，一個(gè)版本模型發(fā)布出來后，可能幾個(gè)月就已不再是領(lǐng)先架構(gòu)了，所以這一套動(dòng)作還要反復(fù)做。

所以認(rèn)知大模型能優(yōu)化到什么程度，不僅取決于企業(yè)在基座模型投入的人才和資源，還和企業(yè)對(duì)大模型趨勢的判斷有關(guān)。

36氪：所以小米現(xiàn)在All in認(rèn)知大模型了？

陳光：現(xiàn)在行業(yè)對(duì)輔助駕駛有不同的探索路線，一類是我們現(xiàn)在做的XLA，直接引入認(rèn)知大模型，另一類則希望用世界模型的生成和重建的能力去解決認(rèn)知的問題。

當(dāng)然，我們不認(rèn)為認(rèn)知大模型和世界模型是對(duì)立的，就算是多模態(tài)語言模型，也需要一個(gè)很好的仿真模擬環(huán)境。

我們其實(shí)是把兩條技術(shù)路線結(jié)合起來了，并不是說車端用XLA的技術(shù)，我們在云端就要完全放棄世界模型。

36氪：世界模型還是有難以替代的優(yōu)勢。

陳光：至少在一些閉環(huán)仿真，就是將這種物理世界投射到這種數(shù)字空間的時(shí)候，世界模型是不可缺少的。

現(xiàn)在技術(shù)的焦點(diǎn)就是長尾場景，比如馬路上滾落一個(gè)異形石塊或者輪胎，真實(shí)世界你很難用實(shí)車去遇到，很難批量收集這樣的場景。所以無論是世界模型還是XLA，都要在仿真模擬器里探索。

36氪：這算是行業(yè)級(jí)的技術(shù)新共識(shí)嗎？

陳光：可能因?yàn)樾∶自谝欢问蕉说蕉说碾A段就走得比較靠前，所以我們在認(rèn)知大模型出現(xiàn)前，就覺得閉環(huán)仿真能力很重要，包括特斯拉在內(nèi)，行業(yè)領(lǐng)頭羊們對(duì)世界模型的重建和生產(chǎn)，應(yīng)該都做得比較扎實(shí)了。

36氪：世界模型出現(xiàn)前，閉環(huán)仿真是怎么做的？

陳光：很難做，幾乎只有靜態(tài)場景，動(dòng)態(tài)場景都依賴真實(shí)數(shù)據(jù)，所以以前大家總是會(huì)說“數(shù)據(jù)量很稀缺”。

36氪：但XLA已經(jīng)可以“看懂”這些路面障礙物了，還需要這樣的數(shù)據(jù)反復(fù)訓(xùn)練嗎？

陳光：我們希望一個(gè)功能在真實(shí)給用戶之前，都在一個(gè)模擬器里面完整去測過。

36氪：測過就能保證真實(shí)使用時(shí)的安全嗎？

陳光：數(shù)字空間和世界模型，其實(shí)是一個(gè)漏斗的作用，它可以把大部分的問題都攔截住。對(duì)于剩下的問題，多模態(tài)大模型本身就具備泛化能力，我們希望通過它本身的認(rèn)知和推理能力來提出更好的解決方案。這兩者其實(shí)是一個(gè)結(jié)合的作用。

36氪：那小米會(huì)在世界模型上持續(xù)投入嗎？未來迭代的方向會(huì)是什么？

陳光：今年我們在GTC上介紹了小米在世界模型上的新進(jìn)展，也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025這些頂會(huì)上發(fā)表了近10篇世界模型相關(guān)的論文，這足以說明，小米高度重視世界模型。

方向的話，我覺得三個(gè)方面。

第一是真不真，這個(gè)可能跟咱們理解的完美真實(shí)不太一樣。我舉個(gè)例子，我們希望模仿的雨天，是攝像頭上掛有水珠的那種真實(shí)的圖像，而不是說模擬出一個(gè)絕對(duì)干凈的雨天環(huán)境。我們希望模擬的情景，能和車端最后獲取的信息一致，這樣你的測試才有效果。

第二就是要很豐富。我今天可能想解決陽光直射場景的通行，過兩天可能又希望解決大雨、大霧或大雪情況下的通行。所以能不能在不改變交通信息的情況下，只改變天氣光照信息呢？

第三就是場景的編輯能力，你的數(shù)字資產(chǎn)要足夠豐富，我能用這些信息模擬各種各樣的場景。足夠豐富，才有足夠的作用。

36氪：聽起來很復(fù)雜，小米在這已經(jīng)投入多久了？

陳光：已經(jīng)兩年了。我回憶了一下，從24年上半年開始就有一些技術(shù)上的準(zhǔn)備了。到24年末，小米的技術(shù)已經(jīng)在行業(yè)和學(xué)術(shù)界得到一定認(rèn)可。25年下半年就可以走到技術(shù)的收獲期了，有一些重點(diǎn)比賽的冠軍、論文之類的。

36氪：也就是說，小米在這方面已經(jīng)具備明顯優(yōu)勢了？

陳光：我們當(dāng)然希望先發(fā)優(yōu)勢能一直保持下去，我們做的確實(shí)比較早，希望能對(duì)行業(yè)產(chǎn)生一些正向影響，大家一起來把這個(gè)事做扎實(shí)一些，最終其實(shí)也是服務(wù)于整個(gè)行業(yè)的產(chǎn)品體驗(yàn)嘛。

價(jià)值觀：既要安全、也要體驗(yàn)

36氪：什么是好的輔助駕駛體驗(yàn)？

陳光：我覺得好的體驗(yàn)，最重要的事情一定是安全。不能給用戶帶來不安全或者不安心的產(chǎn)品，這個(gè)是我們當(dāng)前最核心的一個(gè)事情。

36氪：為什么會(huì)把安全和安心拆開來講？

陳光：從技術(shù)角度講，你只要不碰撞就是安全。但用戶對(duì)安全的感受，并不只是“不碰撞”。比如急剎車，用戶不清楚系統(tǒng)為什么做出這樣“過激”的行為，可能會(huì)有體感上的不適，也會(huì)產(chǎn)生“不安全”的感覺。

所以我們不光要保證輔助駕駛的技術(shù)維度的安全，也要保證給用戶帶來足夠的安心感。只有既安全、又讓人敢用、愿用，這樣的產(chǎn)品體驗(yàn)才是完整的。

36氪：小米在安心感上，有什么心得嗎？

陳光：我覺得是有一些新的進(jìn)展的。

比如我們在路口盲區(qū)，會(huì)有一些預(yù)防性的減速，這就很像人類開車的思路，用戶第一反應(yīng)會(huì)是你做了這個(gè)動(dòng)作，你懂這個(gè)場景。

再比如，前方即將進(jìn)入擁堵路段了，我們的車不會(huì)走到最后一步、到非常極限的時(shí)候才做一腳急剎，而是說會(huì)早早的、防御性地降低速度。這也代表了我們在安全和安心感上的一些思考吧。

36氪：能否總結(jié)下小米輔助駕駛研發(fā)的性格，或者說是價(jià)值觀？

陳光：怎么說呢，小米的價(jià)值觀還是深刻影響了小米輔助駕駛團(tuán)隊(duì)的性格。我覺得和用戶交朋友是最重要事情，從用戶的角度去思考他們需要什么樣的產(chǎn)品體驗(yàn)，再反過來去推進(jìn)這個(gè)技術(shù)的迭代。

就比如從端到端到XLA，初期我們有些同事看好世界模型、有些同事更看好XLA，但深度討論過后，大家最終是覺得XLA一旦做成，一定能給用戶帶來很酷的產(chǎn)品體驗(yàn)，所以就算再難，我們也沖了。

陳龍：是的，雖然我們小米的輔助駕駛的起步比較晚，可能我們這個(gè)發(fā)布的節(jié)奏也沒有那么的快，但我們一定是把體驗(yàn)最好、最安全的這個(gè)產(chǎn)品送到用戶手中。

從我的角度，我覺得我們也一直在踐行第一性原理。因?yàn)槲覀儓?jiān)信大模型可以幫助輔助駕駛解決一些關(guān)鍵問題，所以我們會(huì)做很多大模型的探索工作，最終希望把大模型的能力發(fā)揮出來，推動(dòng)輔助駕駛朝更高階能力繼續(xù)演進(jìn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.