![]()
Spirit v1.5 登頂 RoboChallenge,稀缺的不是“第一”,而是“統(tǒng)一基準(zhǔn)下的第一”。
作者丨文俐亭
編輯丨馬曉寧
![]()
Spirit,靈魂,當(dāng)下機(jī)器人亟需的東西。
但過(guò)去一年機(jī)器人們的靈魂,在兩個(gè)極端間橫跳。
一端是各種炫目視頻反復(fù)刷屏,高度結(jié)構(gòu)化的實(shí)驗(yàn)“溫室”不斷產(chǎn)出高成功率模型,Demo 里的 AI 是如此聰明;但另一端,當(dāng)這些“滿(mǎn)分選手”走進(jìn)現(xiàn)實(shí),卻頻頻翻車(chē)。
演示視頻可以剪輯,實(shí)驗(yàn)室環(huán)境可以特制,任務(wù)的難度可以自定義。這讓整個(gè)行業(yè)陷入了一種“關(guān)公戰(zhàn)秦瓊”的困惑:當(dāng)場(chǎng)景、硬件、評(píng)測(cè)標(biāo)準(zhǔn)各不相同,我們究竟在比什么?是比技術(shù),比智能,還是比誰(shuí)家的運(yùn)鏡和剪輯更專(zhuān)業(yè)?
這場(chǎng)失焦的競(jìng)賽,在 2025 年底迎來(lái)了它的第一個(gè)“主裁判”。
這位“主裁判”,在 2026 年的第一個(gè)月,裁決出第一位中國(guó)冠軍。被 Pi0.5 霸占的榜首,易主了。
1 月 12 日,千尋智能開(kāi)源了自研VLA模型Spirit v1.5,并在由Dexmal、hugging face聯(lián)合發(fā)起的第三方機(jī)器人模型評(píng)測(cè)組織 RoboChallenge 的Table30榜單上一舉登頂,超過(guò)了之前最強(qiáng)模型 pi0.5。
![]()
高陽(yáng)在社交媒體X上官宣開(kāi)源的帖子,立刻被英偉達(dá)機(jī)器人主管Jim Fan點(diǎn)贊,多位海外科技大佬相繼轉(zhuǎn)發(fā)。
![]()
本次千尋智能開(kāi)源了Spirit v1.5的基模權(quán)重、推理代碼以及使用樣例,以接受公眾檢驗(yàn),并方便開(kāi)源社區(qū)在此基礎(chǔ)上繼續(xù)創(chuàng)新。
01
一把“標(biāo)尺”開(kāi)啟的“度量衡時(shí)代”
在 RoboChallenge 出現(xiàn)之前,具身智能最大的問(wèn)題并非“誰(shuí)更強(qiáng)”,而是 “無(wú)從比起” 。
各家都宣布訓(xùn)出了“領(lǐng)先的模型”,但所謂“領(lǐng)先”往往建立在三個(gè)脆弱的基座上:
? 場(chǎng)景無(wú)法復(fù)現(xiàn)的“溫室花朵”:很多令人驚嘆的演示,都發(fā)生在光線恒定、物體擺放規(guī)整、任務(wù)流程固定的“溫室”中。一旦環(huán)境出現(xiàn)絲毫變化,模型就可能“懵圈”。在 A 公司實(shí)驗(yàn)室里流暢分揀的機(jī)器人,到了 B 公司的倉(cāng)庫(kù)可能連門(mén)都找不到。
? 工程強(qiáng)依賴(lài)人的“臨場(chǎng)發(fā)揮”:一些復(fù)雜連續(xù)任務(wù),背后可能是工程師編寫(xiě)了大量“后門(mén)”代碼,或者遙操干預(yù),機(jī)器人正在借助隱身幕后的人“作弊”。
? 任務(wù)不可對(duì)比的“自說(shuō)自話”:A 公司展示擰螺絲,B 公司展示插花,C 公司展示疊衣服……這些碎片化的任務(wù)維度各異,根本無(wú)法判斷孰優(yōu)孰劣,就像讓體操選手和馬拉松跑者同臺(tái)競(jìng)技,再用不同刻度的尺子度量他們的能力。
2025 年底,一把“標(biāo)尺”終于姍姍來(lái)遲。
由 Dexmal、Hugging Face、智源研究院等聯(lián)合發(fā)起的 RoboChallenge,旨在用一套規(guī)則終結(jié)評(píng)測(cè)的混戰(zhàn)時(shí)代。它要回答是:剝離一切外援后,模型內(nèi)核——那個(gè)驅(qū)動(dòng)機(jī)器人理解、規(guī)劃的“大腦”——究竟有多強(qiáng)?
RoboChallenge 堅(jiān)持在真實(shí)物理世界中進(jìn)行評(píng)測(cè),并引入隨機(jī)擾動(dòng)增加泛化挑戰(zhàn),模擬現(xiàn)實(shí)中的不可預(yù)測(cè)性,考驗(yàn)?zāi)P妥叱鰷厥业纳婺芰Α2⑶遥褂媒y(tǒng)一硬件,讓所有算法在完全相同的“肉身”上比拼智力,擠掉了過(guò)度工程化和人為干預(yù)的“水分”。
此外,它提供了一套標(biāo)準(zhǔn)化的任務(wù)庫(kù) Table30,讓所有模型在同一套“考題” 下作答。
從計(jì)算機(jī)視覺(jué)的 ImageNet,到自然語(yǔ)言處理的 GLUE,每一個(gè)技術(shù)領(lǐng)域的爆發(fā)式增長(zhǎng),都始于一個(gè)被廣泛認(rèn)可的基準(zhǔn)測(cè)試。它定義了問(wèn)題,統(tǒng)一了度量。
2025 年 12 月,RoboChallenge 發(fā)布了首份評(píng)測(cè)榜單,Pi0、Pi0.5 霸榜前二;
2026 年 1 月,中國(guó)自變量的 WALL-OSS-Flow 反超 Pi0,但仍被榜首的 Pi0.5 甩開(kāi)了七分多;
但很快,這個(gè)“代際”差距被千尋 Spirit v1.5 追平了。
02
從Pi0.5到Spirit v1.5:靜默的“代際交接”
在最近的評(píng)估中(截至 2026年1月12日),Spiritv 1.5 在 RoboChallenge Table30 測(cè)試上取得了當(dāng)前最優(yōu)的性能,超越了 pi0.5 等之前的全球領(lǐng)先開(kāi)源模型。
Table30 包含了 30 個(gè)桌面環(huán)境操作任務(wù),這些任務(wù)在多種構(gòu)型上進(jìn)行評(píng)測(cè),包括單臂(Franka, Arx5 和 UR5)和雙臂系統(tǒng)(ALOHA),全面考察了 VLA 的各項(xiàng)能力,比如精確的 3D 定位、遮擋處理、時(shí)間依賴(lài)性和多階段長(zhǎng)序列任務(wù),以及模型在多構(gòu)型、全新任務(wù)上的遷移效率。
讓我們來(lái)看看 Spirit v1.5 在各項(xiàng)任務(wù)上的具體表現(xiàn),以及和 pi0.5 的對(duì)比。
首先是插花,Spirit v1.5 驅(qū)動(dòng)的機(jī)械臂抓起了纖細(xì)的花枝,隨后轉(zhuǎn)動(dòng)機(jī)械臂,使花枝方向朝下,隨后精準(zhǔn)插進(jìn)了窄口花瓶中,依照同樣的流程,Spirit v1.5 一口氣插好了三朵花。
反觀 pi0.5,盡管也成功抓起了花枝,但由于葉片掛住夾爪,導(dǎo)致花枝被平放在了瓶口上。
插花任務(wù),Spirit v1.5(上)和 pi0.5(下)表現(xiàn)對(duì)比
再來(lái)看看桌面清理,桌面上隨意放置著大大小小 10 個(gè)物體(碗碟、透明塑料瓶,揉皺的紙巾、士力架包裝等柔性物體),Spirit v1.5 在約 4 分鐘里,分門(mén)別類(lèi)將它們放進(jìn)垃圾桶和整理箱中,兩只小碗還被疊在一起。
而 pi0.5 在分揀了一只碗、瓶子和紙巾后,剩下的時(shí)間就和一直無(wú)法被夾起的紙盒“杠”上了。
桌面清理任務(wù),Spirit v1.5(上)和 pi0.5(下)表現(xiàn)對(duì)比
在整理物品時(shí),Spirit v1.5 先后抓起叉子、膠帶和刷子,準(zhǔn)確移動(dòng)到箱子上方,再松手把物品放進(jìn)去;pi0.5 先是抓空,又因?yàn)閵A爪舉得不夠高碰歪了箱子,松手將叉子掉到箱子外面,隨后重復(fù)拾取也沒(méi)能成功,叉子直接掉到了桌子下。
物品整理任務(wù),Spirit v1.5(上)和 pi0.5(下)表現(xiàn)對(duì)比
當(dāng)涉及到雙臂協(xié)的任務(wù),Spirit v1.5 一爪固定住透明塑料盒,另一爪掀開(kāi)蓋子,隨后將盒子中的薯?xiàng)l傾倒進(jìn)一旁的盤(pán)子中;Pi0.5則對(duì)第一步——拆開(kāi)盒蓋——就束手無(wú)策。
傾倒薯?xiàng)l任務(wù),Spirit v1.5(上)和 pi0.5(下)表現(xiàn)對(duì)比
四項(xiàng)任務(wù)涉及了不同大小、形狀、材質(zhì)的物品,寬口的整理箱,窄口的花瓶,極大考驗(yàn)了模型精準(zhǔn)定位、空間理解和力位混合控制的能力。
半年前,由美國(guó)頭部具身智能公司 Physical Intelligence(Pi)開(kāi)源的 Pi0.5,代表了當(dāng)時(shí)國(guó)際領(lǐng)先的開(kāi)源 VLA 模型水平。在很長(zhǎng)一段時(shí)間里,中國(guó)具身智能行業(yè)呈現(xiàn)“軀體強(qiáng),大腦弱”的格局,尤其在 VLA 模型上,被認(rèn)為落后美國(guó)一個(gè)身位。
有投資人曾頗感苦惱地告訴 AI 科技評(píng)論,資本——尤其是美元資本——仍不相信,一個(gè)領(lǐng)先的模型架構(gòu)會(huì)在中國(guó)做出來(lái),本質(zhì)上,他們?nèi)匀恍叛龉韫取?/p>
Spirit v1.5 的登頂,因此更像是一次靜默的“代際交接”信號(hào)。
它意味著,中國(guó)具身模型,第一次不是在自家后院稱(chēng)王,而是在一個(gè)全球公認(rèn)的、可復(fù)現(xiàn)、可比較的規(guī)則下進(jìn)入了核心競(jìng)爭(zhēng)序列,具備了同國(guó)際頂尖玩家同場(chǎng)競(jìng)技、正面抗衡的能力。從更大視角來(lái)看,中美之間的競(jìng)爭(zhēng)在從過(guò)去明顯的“起跑線差距”過(guò)渡到 “同賽道、不同節(jié)奏” 的新階段,我們?cè)诓呗苑夯⑷蝿?wù)穩(wěn)定性和學(xué)習(xí)效率上,完成了階段性追趕。
03
破除干凈數(shù)據(jù)的“詛咒”
過(guò)去一兩年來(lái),VLA在快速進(jìn)化,但泛化性一直是模型能力的最大痛處。
千尋智能的團(tuán)隊(duì)發(fā)現(xiàn),這種對(duì)泛化能力的制約,恰恰來(lái)自對(duì)訓(xùn)練數(shù)據(jù)的篩選。
當(dāng)研究人員著手教機(jī)器人一項(xiàng)新技能時(shí),本能反應(yīng)是讓學(xué)習(xí)環(huán)境盡可能簡(jiǎn)單。這是由于,機(jī)器人領(lǐng)域的傳統(tǒng)經(jīng)驗(yàn)表明,如果數(shù)據(jù)多樣性過(guò)高,模型將難以收斂,甚至無(wú)法完成基本任務(wù)。因此,大家會(huì)精心設(shè)計(jì)一切——?jiǎng)幼鞅缓?jiǎn)化、物體被放在易觸及的位置……結(jié)果就是產(chǎn)生了一個(gè)“干凈”的數(shù)據(jù)集。例如 Open X-Embodiment (OXE)、Agibot 等模型都是如此訓(xùn)練而來(lái)。
這種數(shù)據(jù)集的初衷是提供一個(gè)容易的起點(diǎn),但容易是有代價(jià)的。
由于數(shù)據(jù)被過(guò)度“凈化”,模型永遠(yuǎn)學(xué)不會(huì)處理難以預(yù)測(cè)的現(xiàn)實(shí)世界。模型的泛化性、可擴(kuò)展性都大打折扣。換句話說(shuō),一部分我們所追求的所謂“高質(zhì)量數(shù)據(jù)”,反而“畫(huà)地為牢”圈住了模型。
因此,千尋認(rèn)為,如果我們希望機(jī)器人能應(yīng)對(duì)人類(lèi)家庭環(huán)境中的不可預(yù)測(cè)性,從預(yù)訓(xùn)練階段開(kāi)始,它們就需要從像真實(shí)世界一樣混亂的數(shù)據(jù)中學(xué)習(xí)。
他們選擇了開(kāi)放式、目標(biāo)驅(qū)動(dòng)的數(shù)據(jù)采集,即多樣化采集。理念很簡(jiǎn)單:拋棄預(yù)設(shè)腳本,鼓勵(lì)操作員“即興發(fā)揮”。比如,數(shù)據(jù)采集員今天決定,教機(jī)器人清理廚房臺(tái)面,具體怎么做、涉及哪些子任務(wù),完全由采集員個(gè)人決定。他們可能先隨機(jī)拿起某個(gè)容器,發(fā)現(xiàn)有碎屑并開(kāi)始擦拭,隨后又去整理、洗滌餐具……
所有這些都在一個(gè)連續(xù)會(huì)話中完成,涵蓋了廣泛的微技能譜系,海量物體交互和環(huán)境轉(zhuǎn)換。它們不僅是單一動(dòng)作的重復(fù),而是連續(xù)的工作流,讓機(jī)器人能夠?qū)W習(xí)整套技能及連接方式。
從而,機(jī)器人開(kāi)始能夠真正體驗(yàn)現(xiàn)實(shí)生活,而不是活在一個(gè)被提前安排好的“楚門(mén)的世界”。
千尋設(shè)置了兩個(gè)對(duì)照組:A 組采用“凈化”數(shù)據(jù);B 組則使用多樣化采集數(shù)據(jù)預(yù)訓(xùn)練。
結(jié)果顯示,在微調(diào)階段,B 組無(wú)論是在收斂速度還是最終性能上都有更好表現(xiàn),其達(dá)到相同性能所需的迭代次數(shù)比A組少了 40%。且遷移效率隨多樣化數(shù)據(jù)量的增加而提升,模型在新任務(wù)上的驗(yàn)證誤差持續(xù)下降。
![]()
多樣化采集預(yù)訓(xùn)練的模型比干凈數(shù)據(jù)采集訓(xùn)練的模型有更快的收斂速度和更好的驗(yàn)證誤差。
![]()
不同數(shù)據(jù)規(guī)模下的模型效果,擴(kuò)大多樣化采集的數(shù)據(jù)規(guī)模可以持續(xù)降低模型的驗(yàn)證誤差。
另一項(xiàng)驚喜的“附帶效果”是,由于無(wú)需精心設(shè)置每個(gè)場(chǎng)景并定義詳細(xì)的任務(wù)指導(dǎo),數(shù)據(jù)采集效率大幅提升,人均有效采集時(shí)長(zhǎng)增加了 200%,算法專(zhuān)家的干預(yù)需求削減了 60%。
從 Pi0.5 到 Spirit v1.5,我們看到的不是單點(diǎn)技術(shù)的“奇襲”,而是中國(guó)團(tuán)隊(duì)在數(shù)據(jù)范式的一次根本性轉(zhuǎn)變。通過(guò)走出腳本化的環(huán)境,Spirit v1.5 證明了模型可以發(fā)展出一種基礎(chǔ)的“物理常識(shí)”,使其在現(xiàn)實(shí)世界中更具適應(yīng)性和韌性。
在這場(chǎng)通往物理 AGI 的競(jìng)賽中,中國(guó)模型沒(méi)有缺席,并準(zhǔn)備好迎接下一輪關(guān)乎應(yīng)用的沖刺。
04
尾聲:誰(shuí)開(kāi)始擁有“被長(zhǎng)期綁定”的資格?
如果說(shuō) 2025 年只是具身智能落地元年,產(chǎn)業(yè)界尚能對(duì)翻車(chē)報(bào)以寬和一笑;那么 2026 將會(huì)是量產(chǎn)爬坡元年,對(duì)于智能的真實(shí)性,下游廠商會(huì)看的更重。一個(gè)機(jī)器人模型能否成為產(chǎn)業(yè)的“默認(rèn)選項(xiàng)”之一,恰恰取決于它是否可靠、可泛化遷移,且具備持續(xù)進(jìn)化的潛力。
Spirit v1.5 登頂,釋放了一個(gè)信號(hào):國(guó)產(chǎn)具身模型,已經(jīng)開(kāi)始具備這種“被長(zhǎng)期綁定”的資格。
放長(zhǎng)時(shí)間線,這將引發(fā)三重連鎖反應(yīng):
? 產(chǎn)業(yè)合作格局將被重塑。過(guò)去,尋找先進(jìn)模型的目光可能首先投向海外;但現(xiàn)在,一個(gè)經(jīng)過(guò)權(quán)威驗(yàn)證的國(guó)產(chǎn)選項(xiàng)出現(xiàn)了,更多國(guó)內(nèi)產(chǎn)業(yè)巨頭會(huì)將其納入考量范疇。
去年底,千尋智能的人形機(jī)器人“小墨”進(jìn)入寧德時(shí)代中州基地,在后者新能源動(dòng)力電池PACK生產(chǎn)線批量落地,它能自主應(yīng)對(duì)來(lái)料位置偏差和插接點(diǎn)位變化,實(shí)時(shí)調(diào)整操作姿態(tài)。在插拔柔性線束時(shí),它還能動(dòng)態(tài)調(diào)節(jié)力度,確保不損傷部件并連接可靠。把單日工作量提升了三倍,插接成功率超99%,作業(yè)節(jié)拍達(dá)到熟練工人水平。
接下來(lái),這樣的合作模式將會(huì)被大量復(fù)制。
? 技術(shù)生態(tài)站隊(duì)開(kāi)始。在操作系統(tǒng)、芯片等領(lǐng)域發(fā)生過(guò)的生態(tài)之爭(zhēng),可能在具身智能領(lǐng)域重演。頭部模型會(huì)成為吸引開(kāi)發(fā)者、硬件廠商、場(chǎng)景方共建生態(tài)的漩渦眼。誰(shuí)能率先建立起圍繞自身模型的軟硬件開(kāi)發(fā)生態(tài),誰(shuí)就可能在下一階段取得決定性?xún)?yōu)勢(shì)。
? 開(kāi)源體系將繼續(xù)良性循環(huán)。
有趣的是,贏得“鐵王座”的——發(fā)布即開(kāi)源的Spirit v1.5,長(zhǎng)期霸榜的Pi——無(wú)一例外是開(kāi)源模型。具身智能領(lǐng)域,至少在短期內(nèi),開(kāi)源已經(jīng)成為不約而同的選擇。
Hugging Face聯(lián)合創(chuàng)始人兼首席科學(xué)家Thomas Wolf很早就觀察到:機(jī)器人的主要玩家?guī)缀跞渴情]源的,“像Tesla、Figure,它們做的機(jī)器人非常出色,但整個(gè)體系都是垂直封閉的閉源堆……你無(wú)法拿一個(gè)Optimus去改造成你自己的機(jī)器人。”
但在開(kāi)源模型的集體勝利后,具身智能領(lǐng)域可能重演2025年初DeepSeek勝利后LLM領(lǐng)域開(kāi)源復(fù)興的局面。它將拆除實(shí)驗(yàn)室的高墻,將工具分發(fā)到每一個(gè)有想法的人手中。當(dāng)研究者們能夠基于同一個(gè)強(qiáng)大的基礎(chǔ)模型進(jìn)行二次開(kāi)發(fā)時(shí),創(chuàng)新的速度將以指數(shù)級(jí)提升,靠單一公司或機(jī)構(gòu)無(wú)法窮盡的場(chǎng)景、數(shù)據(jù)和長(zhǎng)尾問(wèn)題也將能更快完成拼圖。
同時(shí),透明,也是最高效的信任貨幣。開(kāi)源模型將代碼、數(shù)據(jù)乃至架構(gòu)設(shè)計(jì)完全公開(kāi),意味著其經(jīng)得起最挑剔的同行反復(fù)審視、驗(yàn)證。
所有玩家回歸技術(shù)本源,用代碼說(shuō)話,行業(yè)的浮夸與泡沫也將在這面“照妖鏡”前加速消散。
開(kāi)源地址:
Code: https://github.com/Spirit-AI-Team/spirit-v1.5
Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5
Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.