![]()
![]()
- 今天在何處聚焦資源,
- 明天便可能在哪里贏得市場。
![]()
在智能電動(dòng)車競賽中,輔助駕駛的角逐早已成為決定勝負(fù)的重中之重。
2026年3月,隨著新一代SU7發(fā)布,小米正式推出基于XLA認(rèn)知大模型的新一代輔助駕駛方案。這不僅是一次技術(shù)路線的關(guān)鍵轉(zhuǎn)折,也讓小米把“體驗(yàn)優(yōu)先”的思路推進(jìn)到新的階段。
這個(gè)一度被行業(yè)視為“后來者”的玩家,如今正憑借一套清晰而迅猛的技術(shù)進(jìn)化路徑,走出一條聚焦用戶體驗(yàn)、務(wù)實(shí)演進(jìn)的新派道路。
回顧小米輔助駕駛的發(fā)展歷程,這是一段小米從跟隨行業(yè)主流技術(shù)路徑,到逐步形成自主技術(shù)路徑和技術(shù)思考的進(jìn)化史。
2024年3月,小米輔助駕駛在第一代SU7上首次量產(chǎn),當(dāng)時(shí)行業(yè)正圍繞“無圖”和“開城”展開激辯,小米第一代方案也以此切入,正式進(jìn)入“無圖開城”的戰(zhàn)場。作為新選手,小米對(duì)主流趨勢的回應(yīng)是跟從。
隨著規(guī)則驅(qū)動(dòng)的無圖方案逐漸觸及天花板,行業(yè)轉(zhuǎn)向探索以數(shù)據(jù)為核心的“端到端”模型。2025年2月,小米迅速跟進(jìn),推出第二代輔助駕駛系統(tǒng),并于同年7月快步迭代至1000Clips版本,在數(shù)據(jù)驅(qū)動(dòng)的賽道上奮起直追。
然而,數(shù)據(jù)驅(qū)動(dòng)的“蜜月期”并未持續(xù)太久。端到端方案的體驗(yàn)高度依賴數(shù)據(jù),難以窮盡的長尾場景成為共同挑戰(zhàn),行業(yè)進(jìn)入瓶頸期。無人區(qū)的技術(shù)探索并無先跡可循,行業(yè)迸發(fā)出多條技術(shù)路線。
小米并未盲目持續(xù)投入數(shù)據(jù)軍備競賽,而是從第一性原理思考,將目光投向更本質(zhì)的駕駛原理——能否讓“車”像“人”一樣學(xué)會(huì)開車?
2026年3月,小米便帶來了第三代方案:XLA認(rèn)知大模型。與此前兩代不同,XLA不再僅僅依賴單純的規(guī)則或數(shù)據(jù)模式,而是試圖讓輔助駕駛系統(tǒng)真正“理解”環(huán)境,進(jìn)行常識(shí)與因果推斷。
小米輔助駕駛此刻已不再只是行業(yè)的跟隨者,在認(rèn)知驅(qū)動(dòng)的新起點(diǎn)上,小米與領(lǐng)先玩家站在了同一起跑線,甚至展現(xiàn)出了獨(dú)特的技術(shù)思考。
從規(guī)則、數(shù)據(jù)到認(rèn)知,兩年三次跨越,小米的壓力不言而喻。規(guī)則時(shí)代需補(bǔ)工程積累的課,數(shù)據(jù)時(shí)代要追趕閉環(huán)規(guī)模,后來者必須加倍奔跑。而恰在此時(shí),行業(yè)方向再度調(diào)轉(zhuǎn),向認(rèn)知層面進(jìn)發(fā)。小米這一次不僅果斷跟上了節(jié)奏,更是憑借對(duì)用戶體驗(yàn)的堅(jiān)持,給出了完成度與特色兼具的答案。
小米是如何做到的?36氪與小米汽車智能駕駛端到端技術(shù)負(fù)責(zé)人陳光、小米汽車智能駕駛基座大模型負(fù)責(zé)人陳龍進(jìn)行了一場深度對(duì)話。
交談中,陳龍?zhí)寡裕∶纵o助駕駛的確起步較晚、發(fā)布節(jié)奏也沒有同行那么快,“但我們一定是把體驗(yàn)最好、最安全的這個(gè)產(chǎn)品送到用戶手中”。比起博眼球,小米更愿意選擇務(wù)實(shí)的那條路。
其次,與許多單純追求技術(shù)指標(biāo)的公司不同,小米在輔助駕駛領(lǐng)域依然延續(xù)著“和用戶交朋友”的理念。
小米最終為何選擇XLA?陳光告訴36氪,在確定采用XLA路線之前,團(tuán)隊(duì)內(nèi)部也曾經(jīng)歷過技術(shù)路徑的爭論。在行業(yè)方向尚未明朗之時(shí),各種方案看似都有其合理之處。最后如何統(tǒng)一方向?陳光表示,“團(tuán)隊(duì)一致認(rèn)可,XLA才能夠?yàn)橛脩魩碚嬲芸帷捏w驗(yàn)。”
這種體驗(yàn)優(yōu)先的思路,背后實(shí)則需要十分堅(jiān)實(shí)的技術(shù)支撐。小米在多模態(tài)認(rèn)知、具身智能交互以及工程落地已探索與實(shí)踐數(shù)年,這些經(jīng)驗(yàn)理解,便是其在輔助駕駛行業(yè)最新的技術(shù)爭奪戰(zhàn)中拔得頭籌的重要原因。
輔助駕駛的“認(rèn)知時(shí)代”剛剛啟幕,尚無成熟路徑可循。這場無人區(qū)的探索,比拼的不僅是技術(shù),更是企業(yè)的戰(zhàn)略定力與對(duì)用戶需求的洞察深度。今天在何處聚焦資源,明天便可能在哪里贏得市場。
小米所選擇的這條融合自研基座模型、多模態(tài)認(rèn)知與具身智能數(shù)據(jù)的XLA之路,能否真正實(shí)現(xiàn)從“并跑”到“引領(lǐng)”的跨越?從接下來的對(duì)話中,一起聆聽小米如何拆解其中的邏輯、挑戰(zhàn)與未來構(gòu)想。
![]()
解析:XLA,
在認(rèn)知大模型上進(jìn)行創(chuàng)新
36氪:小米的輔助駕駛,現(xiàn)在在做什么?
陳龍:我們正在做的,就是在輔助駕駛領(lǐng)域,引入認(rèn)知大模型這個(gè)范式。我們希望通過大模型,讓輔助駕駛系統(tǒng)有對(duì)環(huán)境的認(rèn)知能力,能習(xí)得一些人類世界的常識(shí)、交通規(guī)則和一些道路實(shí)物的因果關(guān)系,從而解決端到端難以解決的長尾問題。
前段時(shí)間發(fā)布的XLA認(rèn)知大模型,就是我們推出的第一版認(rèn)知驅(qū)動(dòng)的輔助駕駛系統(tǒng)。
36氪:相比端到端,認(rèn)知大模型的優(yōu)勢是什么?
陳龍:我舉一個(gè)場景案例,比如前方道路封閉了,現(xiàn)場通過路牌和圍擋引導(dǎo)車輛繞行,過程中可能還需要臨時(shí)借道,甚至短暫跨越雙黃線。端到端版本更多是根據(jù)當(dāng)前道路形態(tài)繼續(xù)往前走,遇到這種臨時(shí)改道場景,未必能主動(dòng)理解“現(xiàn)在應(yīng)該繞行”。但XLA認(rèn)知大模型可以結(jié)合現(xiàn)場標(biāo)識(shí)和環(huán)境信息,理解這是一個(gè)“封路后按指示繞行”的場景,進(jìn)一步推理出可行路徑,并發(fā)起合理繞行。
36氪:聽起來和行業(yè)現(xiàn)在熱議的VLA大模型沒什么區(qū)別?
陳龍:VLA其實(shí)是學(xué)術(shù)界傳過來的名詞,它的意思就是視覺語言大模型。
我們XLA認(rèn)知大模型不僅僅有視覺信息,還有聲音信息、雷達(dá)信息,包括更多模態(tài)的比如導(dǎo)航之類的。我們XLA中X的第一層意思,就是我們采用了比視覺更多的模態(tài)作信息輸入。
另一方面就是我們在XLA的基座模型中,融入了具身智能相關(guān)的數(shù)據(jù)。
這里也有一個(gè)很重要的差別,行業(yè)里其他廠商的認(rèn)知大模型是在一些開源模型上打造的,小米使用的是我們自研的Xiaomi MiMo-Embodied具身基座模型。因?yàn)槭亲匝械模晕覀冊诨P偷念A(yù)訓(xùn)練階段,便加入了很多具身智能的數(shù)據(jù)。所以XLA中X的第二層含義,便是我們具備更豐富的數(shù)據(jù)。
還有一個(gè)很核心的區(qū)別。
行業(yè)里的VLA,有些會(huì)輸出大段文字推理,然后再輸出動(dòng)作。這樣有一個(gè)問題,就是速度太慢了,延時(shí)不可控。然后就有另一種說法,那索性去掉語言了。但這樣它就不是VLA了,因?yàn)楦揪蜎]用上L的推理能力了。
我們XLA使用的是潛空間推理。具體做法就是,在推理的時(shí)候使用的是機(jī)器語言,這樣的話過程和推理時(shí)延都是可控的。當(dāng)然,這個(gè)機(jī)器語言也可以解碼成文字,具備可解釋性。我們既保證了推理能力,又大大提升了效率。
![]()
36氪:現(xiàn)在業(yè)界都在探索汽車和具身智能機(jī)器人的關(guān)系,小米為什么會(huì)把具身智能的數(shù)據(jù)用到汽車上?
陳龍:我們把具身智能相關(guān)數(shù)據(jù)加進(jìn)來,主要是為了訓(xùn)練汽車的空間感知和空間推理能力。
空間感知里,有一個(gè)精度差距。汽車對(duì)周圍事物的感知精度,一般是在分米級(jí)別。但人形機(jī)器人,它平常的訓(xùn)練任務(wù)可能是抓握杯子之類的,它的數(shù)據(jù)精度可以是厘米甚至更高級(jí)別。用人形機(jī)器人的數(shù)據(jù)來訓(xùn)練汽車,那汽車的能力不就更強(qiáng)了嗎?
其次,現(xiàn)在的輔助駕駛汽車在路上開,其實(shí)沒有跟周圍事物產(chǎn)生交互的。我們的目的其實(shí)是要避免碰撞,但輔助駕駛系統(tǒng)其實(shí)并不了解碰撞到底是什么。空間推理能力,其實(shí)就是讓汽車?yán)斫猓@樣子開造成什么樣的后果。而機(jī)器人,剛好就有很多這樣的交互的數(shù)據(jù)。
我們的Xiaomi MiMo-Embodied,就是全球首個(gè)打通了輔助駕駛和機(jī)器人的具身智能基座模型。當(dāng)然,我們也發(fā)現(xiàn),輔助駕駛和機(jī)器人的數(shù)據(jù)是互相增強(qiáng)的,所以未來我們希望輔助駕駛、機(jī)器人甚至其他小米智能設(shè)備都進(jìn)化成一個(gè)大腦,從而帶來更加無縫的體驗(yàn)。
36氪:但具身智能的數(shù)據(jù)復(fù)雜又精巧,想要跟輔助駕駛的數(shù)據(jù)融合,挑戰(zhàn)不小。
陳龍:是的。
具身智能數(shù)據(jù),首先就包含很多不同形態(tài)的機(jī)器人本體,這些機(jī)器人本體上,傳感器的位置不一樣,甚至相機(jī)圖像的分辨率都不同。然后輔助駕駛的輸出大多是2D層面的,但機(jī)器人更多是3D空間的多關(guān)節(jié)輸出。
難就難在,如何設(shè)計(jì)一個(gè)精巧的模型結(jié)構(gòu),讓這些不同的數(shù)據(jù)統(tǒng)一起來。當(dāng)然,目前的訓(xùn)練目標(biāo)主要是空間感知和空間推理,還不太涉及動(dòng)作級(jí)別,可能未來才需要考慮兩種任務(wù)在執(zhí)行空間上的差別。
36氪:XLA僅限于行車場景嗎?泊車上有什么進(jìn)展嗎?
陳光:我們的泊車也更智能了。這次有推出一個(gè)新功能,比如你導(dǎo)航的最終目的地是一個(gè)商場的商戶,那我們泊車會(huì)在這個(gè)商圈停車場中,尋找離這個(gè)商戶電梯口最近的停車位。目前,這個(gè)功能收到了一些用戶的好評(píng)和推薦了。
![]()
![]()
工程落地:
讓“車”像“人”,并不容易
36氪:感覺這個(gè)功能實(shí)現(xiàn)起來不容易。
陳光:我覺得難點(diǎn)有很多,但本質(zhì)上還是怎么能像人一樣,到一個(gè)相對(duì)陌生的環(huán)境時(shí),能找到最適合自己的停車位。
車進(jìn)入一個(gè)地庫后,你需要能讀懂地庫的環(huán)境,包括一些文字標(biāo)牌、電梯口的信息之類的。如果最近的停車位都停滿了,我們就會(huì)開始漫游,找更適合的停車位。本質(zhì)上就是,怎么根據(jù)已有的這些指引信息,去到導(dǎo)航最終的目的地。
36氪:這對(duì)車端實(shí)時(shí)處理能力要求很高。
陳光:是的,比較高。我們是經(jīng)過了很大的算法優(yōu)化,才把XLA部署上去的。這種算法適配,其實(shí)也是很大的挑戰(zhàn)。我們前前后后經(jīng)歷了很多開發(fā)和工程的優(yōu)化,也踩過一些坑,做的也是有一些辛苦。在這里面,我們是有一些Know-How的。
36氪:你如何評(píng)價(jià)小米輔助駕駛的工程能力?
陳光:我個(gè)人認(rèn)為還是很比較領(lǐng)先的,現(xiàn)在還是很少有能把這么復(fù)雜的一個(gè)模型部署到這個(gè)實(shí)際的車端,并且推送給所有用戶的企業(yè)。
36氪:那小米接下來的方向會(huì)是什么?
陳龍:第一肯定是算力問題。大模型,它尺寸越大,能力就越強(qiáng),我們當(dāng)然想在車上放一個(gè)最強(qiáng)的一個(gè)模型,但是車端是有算力限制的。我們現(xiàn)在做的潛空間推理,意義就是這個(gè)。當(dāng)然,以后會(huì)做更多。
陳光:是的,車端模型參數(shù)量的進(jìn)一步的提升,包括它在訓(xùn)練過程中如何能消費(fèi)更多的數(shù)據(jù)、能理解更多的場景,這是第一個(gè)的挑戰(zhàn)。
第二個(gè)挑戰(zhàn),就是怎么給用戶開發(fā)更多行車和泊車的功能,進(jìn)一步提升產(chǎn)品體驗(yàn),特別是新功能能不能給用戶帶來更多驚喜。
![]()
升級(jí):優(yōu)質(zhì)數(shù)據(jù)、
基座模型與仿真世界缺一不可
36氪:認(rèn)知大模型的優(yōu)化也依賴數(shù)據(jù)嗎?
陳龍:數(shù)據(jù)肯定是一方面,我們持續(xù)需要高質(zhì)量的數(shù)據(jù),另一方面就是模型能力本身,尤其是基座模型。
剛剛提到,有些廠商會(huì)用開源的基座模型。這里有一個(gè)問題,你并不知道這些開源模型是怎么做預(yù)訓(xùn)練的,它可能沒有很細(xì)致的數(shù)據(jù)清洗和標(biāo)準(zhǔn),甚至還會(huì)使用到網(wǎng)上比較抽象的、危險(xiǎn)的信息。這些東西反映到最終的駕駛行為時(shí),可能會(huì)引發(fā)蝴蝶效應(yīng),造成很大風(fēng)險(xiǎn)。
但從頭做基座大模型非常不容易,第一是需要一個(gè)很強(qiáng)的團(tuán)隊(duì),然后是數(shù)據(jù)篩選和清洗工作,再要搭建調(diào)試自己的Infra系統(tǒng),還要有一套評(píng)測指標(biāo)。并且,一個(gè)版本模型發(fā)布出來后,可能幾個(gè)月就已不再是領(lǐng)先架構(gòu)了,所以這一套動(dòng)作還要反復(fù)做。
所以認(rèn)知大模型能優(yōu)化到什么程度,不僅取決于企業(yè)在基座模型投入的人才和資源,還和企業(yè)對(duì)大模型趨勢的判斷有關(guān)。
36氪:所以小米現(xiàn)在All in認(rèn)知大模型了?
陳光:現(xiàn)在行業(yè)對(duì)輔助駕駛有不同的探索路線,一類是我們現(xiàn)在做的XLA,直接引入認(rèn)知大模型,另一類則希望用世界模型的生成和重建的能力去解決認(rèn)知的問題。
當(dāng)然,我們不認(rèn)為認(rèn)知大模型和世界模型是對(duì)立的,就算是多模態(tài)語言模型,也需要一個(gè)很好的仿真模擬環(huán)境。
我們其實(shí)是把兩條技術(shù)路線結(jié)合起來了,并不是說車端用XLA的技術(shù),我們在云端就要完全放棄世界模型。
36氪:世界模型還是有難以替代的優(yōu)勢。
陳光:至少在一些閉環(huán)仿真,就是將這種物理世界投射到這種數(shù)字空間的時(shí)候,世界模型是不可缺少的。
現(xiàn)在技術(shù)的焦點(diǎn)就是長尾場景,比如馬路上滾落一個(gè)異形石塊或者輪胎,真實(shí)世界你很難用實(shí)車去遇到,很難批量收集這樣的場景。所以無論是世界模型還是XLA,都要在仿真模擬器里探索。
36氪:這算是行業(yè)級(jí)的技術(shù)新共識(shí)嗎?
陳光:可能因?yàn)樾∶自谝欢问蕉说蕉说碾A段就走得比較靠前,所以我們在認(rèn)知大模型出現(xiàn)前,就覺得閉環(huán)仿真能力很重要,包括特斯拉在內(nèi),行業(yè)領(lǐng)頭羊們對(duì)世界模型的重建和生產(chǎn),應(yīng)該都做得比較扎實(shí)了。
36氪:世界模型出現(xiàn)前,閉環(huán)仿真是怎么做的?
陳光:很難做,幾乎只有靜態(tài)場景,動(dòng)態(tài)場景都依賴真實(shí)數(shù)據(jù),所以以前大家總是會(huì)說“數(shù)據(jù)量很稀缺”。
36氪:但XLA已經(jīng)可以“看懂”這些路面障礙物了,還需要這樣的數(shù)據(jù)反復(fù)訓(xùn)練嗎?
陳光:我們希望一個(gè)功能在真實(shí)給用戶之前,都在一個(gè)模擬器里面完整去測過。
36氪:測過就能保證真實(shí)使用時(shí)的安全嗎?
陳光:數(shù)字空間和世界模型,其實(shí)是一個(gè)漏斗的作用,它可以把大部分的問題都攔截住。對(duì)于剩下的問題,多模態(tài)大模型本身就具備泛化能力,我們希望通過它本身的認(rèn)知和推理能力來提出更好的解決方案。這兩者其實(shí)是一個(gè)結(jié)合的作用。
36氪:那小米會(huì)在世界模型上持續(xù)投入嗎?未來迭代的方向會(huì)是什么?
陳光:今年我們在GTC上介紹了小米在世界模型上的新進(jìn)展,也在包括CVPR2026、ICLR2026、NIPS2025、ICCV2025這些頂會(huì)上發(fā)表了近10篇世界模型相關(guān)的論文,這足以說明,小米高度重視世界模型。
方向的話,我覺得三個(gè)方面。
第一是真不真,這個(gè)可能跟咱們理解的完美真實(shí)不太一樣。我舉個(gè)例子,我們希望模仿的雨天,是攝像頭上掛有水珠的那種真實(shí)的圖像,而不是說模擬出一個(gè)絕對(duì)干凈的雨天環(huán)境。我們希望模擬的情景,能和車端最后獲取的信息一致,這樣你的測試才有效果。
第二就是要很豐富。我今天可能想解決陽光直射場景的通行,過兩天可能又希望解決大雨、大霧或大雪情況下的通行。所以能不能在不改變交通信息的情況下,只改變天氣光照信息呢?
第三就是場景的編輯能力,你的數(shù)字資產(chǎn)要足夠豐富,我能用這些信息模擬各種各樣的場景。足夠豐富,才有足夠的作用。
36氪:聽起來很復(fù)雜,小米在這已經(jīng)投入多久了?
陳光:已經(jīng)兩年了。我回憶了一下,從24年上半年開始就有一些技術(shù)上的準(zhǔn)備了。到24年末,小米的技術(shù)已經(jīng)在行業(yè)和學(xué)術(shù)界得到一定認(rèn)可。25年下半年就可以走到技術(shù)的收獲期了,有一些重點(diǎn)比賽的冠軍、論文之類的。
36氪:也就是說,小米在這方面已經(jīng)具備明顯優(yōu)勢了?
陳光:我們當(dāng)然希望先發(fā)優(yōu)勢能一直保持下去,我們做的確實(shí)比較早,希望能對(duì)行業(yè)產(chǎn)生一些正向影響,大家一起來把這個(gè)事做扎實(shí)一些,最終其實(shí)也是服務(wù)于整個(gè)行業(yè)的產(chǎn)品體驗(yàn)嘛。
![]()
價(jià)值觀:既要安全、也要體驗(yàn)
36氪:什么是好的輔助駕駛體驗(yàn)?
陳光:我覺得好的體驗(yàn),最重要的事情一定是安全。不能給用戶帶來不安全或者不安心的產(chǎn)品,這個(gè)是我們當(dāng)前最核心的一個(gè)事情。
36氪:為什么會(huì)把安全和安心拆開來講?
陳光:從技術(shù)角度講,你只要不碰撞就是安全。但用戶對(duì)安全的感受,并不只是“不碰撞”。比如急剎車,用戶不清楚系統(tǒng)為什么做出這樣“過激”的行為,可能會(huì)有體感上的不適,也會(huì)產(chǎn)生“不安全”的感覺。
所以我們不光要保證輔助駕駛的技術(shù)維度的安全,也要保證給用戶帶來足夠的安心感。只有既安全、又讓人敢用、愿用,這樣的產(chǎn)品體驗(yàn)才是完整的。
36氪:小米在安心感上,有什么心得嗎?
陳光:我覺得是有一些新的進(jìn)展的。
比如我們在路口盲區(qū),會(huì)有一些預(yù)防性的減速,這就很像人類開車的思路,用戶第一反應(yīng)會(huì)是你做了這個(gè)動(dòng)作,你懂這個(gè)場景。
再比如,前方即將進(jìn)入擁堵路段了,我們的車不會(huì)走到最后一步、到非常極限的時(shí)候才做一腳急剎,而是說會(huì)早早的、防御性地降低速度。這也代表了我們在安全和安心感上的一些思考吧。
36氪:能否總結(jié)下小米輔助駕駛研發(fā)的性格,或者說是價(jià)值觀?
陳光:怎么說呢,小米的價(jià)值觀還是深刻影響了小米輔助駕駛團(tuán)隊(duì)的性格。我覺得和用戶交朋友是最重要事情,從用戶的角度去思考他們需要什么樣的產(chǎn)品體驗(yàn),再反過來去推進(jìn)這個(gè)技術(shù)的迭代。
就比如從端到端到XLA,初期我們有些同事看好世界模型、有些同事更看好XLA,但深度討論過后,大家最終是覺得XLA一旦做成,一定能給用戶帶來很酷的產(chǎn)品體驗(yàn),所以就算再難,我們也沖了。
陳龍:是的,雖然我們小米的輔助駕駛的起步比較晚,可能我們這個(gè)發(fā)布的節(jié)奏也沒有那么的快,但我們一定是把體驗(yàn)最好、最安全的這個(gè)產(chǎn)品送到用戶手中。
從我的角度,我覺得我們也一直在踐行第一性原理。因?yàn)槲覀儓?jiān)信大模型可以幫助輔助駕駛解決一些關(guān)鍵問題,所以我們會(huì)做很多大模型的探索工作,最終希望把大模型的能力發(fā)揮出來,推動(dòng)輔助駕駛朝更高階能力繼續(xù)演進(jìn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.