網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn)具身模型開(kāi)源“屠榜”，首殺Pi0.5獲英偉達(dá)Jim Fan點(diǎn)贊！

2026-01-12 08:36:25　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

Spirit v1.5 登頂 RoboChallenge，稀缺的不是“第一”，而是“統(tǒng)一基準(zhǔn)下的第一”。

作者丨文俐亭

編輯丨馬曉寧

Spirit，靈魂，當(dāng)下機(jī)器人亟需的東西。

但過(guò)去一年機(jī)器人們的靈魂，在兩個(gè)極端間橫跳。

一端是各種炫目視頻反復(fù)刷屏，高度結(jié)構(gòu)化的實(shí)驗(yàn)“溫室”不斷產(chǎn)出高成功率模型，Demo 里的 AI 是如此聰明；但另一端，當(dāng)這些“滿(mǎn)分選手”走進(jìn)現(xiàn)實(shí)，卻頻頻翻車(chē)。

演示視頻可以剪輯，實(shí)驗(yàn)室環(huán)境可以特制，任務(wù)的難度可以自定義。這讓整個(gè)行業(yè)陷入了一種“關(guān)公戰(zhàn)秦瓊”的困惑：當(dāng)場(chǎng)景、硬件、評(píng)測(cè)標(biāo)準(zhǔn)各不相同，我們究竟在比什么？是比技術(shù)，比智能，還是比誰(shuí)家的運(yùn)鏡和剪輯更專(zhuān)業(yè)？

這場(chǎng)失焦的競(jìng)賽，在 2025 年底迎來(lái)了它的第一個(gè)“主裁判”。

這位“主裁判”，在 2026 年的第一個(gè)月，裁決出第一位中國(guó)冠軍。被 Pi0.5 霸占的榜首，易主了。

1 月 12 日，千尋智能開(kāi)源了自研VLA模型Spirit v1.5，并在由Dexmal、hugging face聯(lián)合發(fā)起的第三方機(jī)器人模型評(píng)測(cè)組織 RoboChallenge 的Table30榜單上一舉登頂，超過(guò)了之前最強(qiáng)模型 pi0.5。

高陽(yáng)在社交媒體X上官宣開(kāi)源的帖子，立刻被英偉達(dá)機(jī)器人主管Jim Fan點(diǎn)贊，多位海外科技大佬相繼轉(zhuǎn)發(fā)。

本次千尋智能開(kāi)源了Spirit v1.5的基模權(quán)重、推理代碼以及使用樣例，以接受公眾檢驗(yàn)，并方便開(kāi)源社區(qū)在此基礎(chǔ)上繼續(xù)創(chuàng)新。

01
一把“標(biāo)尺”開(kāi)啟的“度量衡時(shí)代”

在 RoboChallenge 出現(xiàn)之前，具身智能最大的問(wèn)題并非“誰(shuí)更強(qiáng)”，而是 “無(wú)從比起” 。

各家都宣布訓(xùn)出了“領(lǐng)先的模型”，但所謂“領(lǐng)先”往往建立在三個(gè)脆弱的基座上：

? 場(chǎng)景無(wú)法復(fù)現(xiàn)的“溫室花朵”：很多令人驚嘆的演示，都發(fā)生在光線恒定、物體擺放規(guī)整、任務(wù)流程固定的“溫室”中。一旦環(huán)境出現(xiàn)絲毫變化，模型就可能“懵圈”。在 A 公司實(shí)驗(yàn)室里流暢分揀的機(jī)器人，到了 B 公司的倉(cāng)庫(kù)可能連門(mén)都找不到。

? 工程強(qiáng)依賴(lài)人的“臨場(chǎng)發(fā)揮”：一些復(fù)雜連續(xù)任務(wù)，背后可能是工程師編寫(xiě)了大量“后門(mén)”代碼，或者遙操干預(yù)，機(jī)器人正在借助隱身幕后的人“作弊”。

? 任務(wù)不可對(duì)比的“自說(shuō)自話”：A 公司展示擰螺絲，B 公司展示插花，C 公司展示疊衣服……這些碎片化的任務(wù)維度各異，根本無(wú)法判斷孰優(yōu)孰劣，就像讓體操選手和馬拉松跑者同臺(tái)競(jìng)技，再用不同刻度的尺子度量他們的能力。

2025 年底，一把“標(biāo)尺”終于姍姍來(lái)遲。

由 Dexmal、Hugging Face、智源研究院等聯(lián)合發(fā)起的 RoboChallenge，旨在用一套規(guī)則終結(jié)評(píng)測(cè)的混戰(zhàn)時(shí)代。它要回答是：剝離一切外援后，模型內(nèi)核——那個(gè)驅(qū)動(dòng)機(jī)器人理解、規(guī)劃的“大腦”——究竟有多強(qiáng)？

RoboChallenge 堅(jiān)持在真實(shí)物理世界中進(jìn)行評(píng)測(cè)，并引入隨機(jī)擾動(dòng)增加泛化挑戰(zhàn)，模擬現(xiàn)實(shí)中的不可預(yù)測(cè)性，考驗(yàn)?zāi)Ｐ妥叱鰷厥业纳婺芰Α２⑶遥褂媒y(tǒng)一硬件，讓所有算法在完全相同的“肉身”上比拼智力，擠掉了過(guò)度工程化和人為干預(yù)的“水分”。

此外，它提供了一套標(biāo)準(zhǔn)化的任務(wù)庫(kù) Table30，讓所有模型在同一套“考題” 下作答。

從計(jì)算機(jī)視覺(jué)的 ImageNet，到自然語(yǔ)言處理的 GLUE，每一個(gè)技術(shù)領(lǐng)域的爆發(fā)式增長(zhǎng)，都始于一個(gè)被廣泛認(rèn)可的基準(zhǔn)測(cè)試。它定義了問(wèn)題，統(tǒng)一了度量。

2025 年 12 月，RoboChallenge 發(fā)布了首份評(píng)測(cè)榜單，Pi0、Pi0.5 霸榜前二；

2026 年 1 月，中國(guó)自變量的 WALL-OSS-Flow 反超 Pi0，但仍被榜首的 Pi0.5 甩開(kāi)了七分多；

但很快，這個(gè)“代際”差距被千尋 Spirit v1.5 追平了。

02
從Pi0.5到Spirit v1.5：靜默的“代際交接”

在最近的評(píng)估中（截至 2026年1月12日），Spiritv 1.5 在 RoboChallenge Table30 測(cè)試上取得了當(dāng)前最優(yōu)的性能，超越了 pi0.5 等之前的全球領(lǐng)先開(kāi)源模型。

Table30 包含了 30 個(gè)桌面環(huán)境操作任務(wù)，這些任務(wù)在多種構(gòu)型上進(jìn)行評(píng)測(cè)，包括單臂（Franka, Arx5 和 UR5）和雙臂系統(tǒng)（ALOHA），全面考察了 VLA 的各項(xiàng)能力，比如精確的 3D 定位、遮擋處理、時(shí)間依賴(lài)性和多階段長(zhǎng)序列任務(wù)，以及模型在多構(gòu)型、全新任務(wù)上的遷移效率。

讓我們來(lái)看看 Spirit v1.5 在各項(xiàng)任務(wù)上的具體表現(xiàn)，以及和 pi0.5 的對(duì)比。

首先是插花，Spirit v1.5 驅(qū)動(dòng)的機(jī)械臂抓起了纖細(xì)的花枝，隨后轉(zhuǎn)動(dòng)機(jī)械臂，使花枝方向朝下，隨后精準(zhǔn)插進(jìn)了窄口花瓶中，依照同樣的流程，Spirit v1.5 一口氣插好了三朵花。

反觀 pi0.5，盡管也成功抓起了花枝，但由于葉片掛住夾爪，導(dǎo)致花枝被平放在了瓶口上。

插花任務(wù)，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對(duì)比

再來(lái)看看桌面清理，桌面上隨意放置著大大小小 10 個(gè)物體（碗碟、透明塑料瓶，揉皺的紙巾、士力架包裝等柔性物體），Spirit v1.5 在約 4 分鐘里，分門(mén)別類(lèi)將它們放進(jìn)垃圾桶和整理箱中，兩只小碗還被疊在一起。

而 pi0.5 在分揀了一只碗、瓶子和紙巾后，剩下的時(shí)間就和一直無(wú)法被夾起的紙盒“杠”上了。

桌面清理任務(wù)，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對(duì)比

在整理物品時(shí)，Spirit v1.5 先后抓起叉子、膠帶和刷子，準(zhǔn)確移動(dòng)到箱子上方，再松手把物品放進(jìn)去；pi0.5 先是抓空，又因?yàn)閵A爪舉得不夠高碰歪了箱子，松手將叉子掉到箱子外面，隨后重復(fù)拾取也沒(méi)能成功，叉子直接掉到了桌子下。

物品整理任務(wù)，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對(duì)比

當(dāng)涉及到雙臂協(xié)的任務(wù)，Spirit v1.5 一爪固定住透明塑料盒，另一爪掀開(kāi)蓋子，隨后將盒子中的薯?xiàng)l傾倒進(jìn)一旁的盤(pán)子中；Pi0.5則對(duì)第一步——拆開(kāi)盒蓋——就束手無(wú)策。

傾倒薯?xiàng)l任務(wù)，Spirit v1.5（上）和 pi0.5（下）表現(xiàn)對(duì)比

四項(xiàng)任務(wù)涉及了不同大小、形狀、材質(zhì)的物品，寬口的整理箱，窄口的花瓶，極大考驗(yàn)了模型精準(zhǔn)定位、空間理解和力位混合控制的能力。

半年前，由美國(guó)頭部具身智能公司 Physical Intelligence（Pi）開(kāi)源的 Pi0.5，代表了當(dāng)時(shí)國(guó)際領(lǐng)先的開(kāi)源 VLA 模型水平。在很長(zhǎng)一段時(shí)間里，中國(guó)具身智能行業(yè)呈現(xiàn)“軀體強(qiáng)，大腦弱”的格局，尤其在 VLA 模型上，被認(rèn)為落后美國(guó)一個(gè)身位。

有投資人曾頗感苦惱地告訴 AI 科技評(píng)論，資本——尤其是美元資本——仍不相信，一個(gè)領(lǐng)先的模型架構(gòu)會(huì)在中國(guó)做出來(lái)，本質(zhì)上，他們?nèi)匀恍叛龉韫取?/p>

Spirit v1.5 的登頂，因此更像是一次靜默的“代際交接”信號(hào)。

它意味著，中國(guó)具身模型，第一次不是在自家后院稱(chēng)王，而是在一個(gè)全球公認(rèn)的、可復(fù)現(xiàn)、可比較的規(guī)則下進(jìn)入了核心競(jìng)爭(zhēng)序列，具備了同國(guó)際頂尖玩家同場(chǎng)競(jìng)技、正面抗衡的能力。從更大視角來(lái)看，中美之間的競(jìng)爭(zhēng)在從過(guò)去明顯的“起跑線差距”過(guò)渡到 “同賽道、不同節(jié)奏” 的新階段，我們?cè)诓呗苑夯⑷蝿?wù)穩(wěn)定性和學(xué)習(xí)效率上，完成了階段性追趕。

03
破除干凈數(shù)據(jù)的“詛咒”

過(guò)去一兩年來(lái)，VLA在快速進(jìn)化，但泛化性一直是模型能力的最大痛處。

千尋智能的團(tuán)隊(duì)發(fā)現(xiàn)，這種對(duì)泛化能力的制約，恰恰來(lái)自對(duì)訓(xùn)練數(shù)據(jù)的篩選。

當(dāng)研究人員著手教機(jī)器人一項(xiàng)新技能時(shí)，本能反應(yīng)是讓學(xué)習(xí)環(huán)境盡可能簡(jiǎn)單。這是由于，機(jī)器人領(lǐng)域的傳統(tǒng)經(jīng)驗(yàn)表明，如果數(shù)據(jù)多樣性過(guò)高，模型將難以收斂，甚至無(wú)法完成基本任務(wù)。因此，大家會(huì)精心設(shè)計(jì)一切——?jiǎng)幼鞅缓?jiǎn)化、物體被放在易觸及的位置……結(jié)果就是產(chǎn)生了一個(gè)“干凈”的數(shù)據(jù)集。例如 Open X-Embodiment (OXE)、Agibot 等模型都是如此訓(xùn)練而來(lái)。

這種數(shù)據(jù)集的初衷是提供一個(gè)容易的起點(diǎn)，但容易是有代價(jià)的。

由于數(shù)據(jù)被過(guò)度“凈化”，模型永遠(yuǎn)學(xué)不會(huì)處理難以預(yù)測(cè)的現(xiàn)實(shí)世界。模型的泛化性、可擴(kuò)展性都大打折扣。換句話說(shuō)，一部分我們所追求的所謂“高質(zhì)量數(shù)據(jù)”，反而“畫(huà)地為牢”圈住了模型。

因此，千尋認(rèn)為，如果我們希望機(jī)器人能應(yīng)對(duì)人類(lèi)家庭環(huán)境中的不可預(yù)測(cè)性，從預(yù)訓(xùn)練階段開(kāi)始，它們就需要從像真實(shí)世界一樣混亂的數(shù)據(jù)中學(xué)習(xí)。

他們選擇了開(kāi)放式、目標(biāo)驅(qū)動(dòng)的數(shù)據(jù)采集，即多樣化采集。理念很簡(jiǎn)單：拋棄預(yù)設(shè)腳本，鼓勵(lì)操作員“即興發(fā)揮”。比如，數(shù)據(jù)采集員今天決定，教機(jī)器人清理廚房臺(tái)面，具體怎么做、涉及哪些子任務(wù)，完全由采集員個(gè)人決定。他們可能先隨機(jī)拿起某個(gè)容器，發(fā)現(xiàn)有碎屑并開(kāi)始擦拭，隨后又去整理、洗滌餐具……

所有這些都在一個(gè)連續(xù)會(huì)話中完成，涵蓋了廣泛的微技能譜系，海量物體交互和環(huán)境轉(zhuǎn)換。它們不僅是單一動(dòng)作的重復(fù)，而是連續(xù)的工作流，讓機(jī)器人能夠?qū)W習(xí)整套技能及連接方式。

從而，機(jī)器人開(kāi)始能夠真正體驗(yàn)現(xiàn)實(shí)生活，而不是活在一個(gè)被提前安排好的“楚門(mén)的世界”。

千尋設(shè)置了兩個(gè)對(duì)照組：A 組采用“凈化”數(shù)據(jù)；B 組則使用多樣化采集數(shù)據(jù)預(yù)訓(xùn)練。

結(jié)果顯示，在微調(diào)階段，B 組無(wú)論是在收斂速度還是最終性能上都有更好表現(xiàn)，其達(dá)到相同性能所需的迭代次數(shù)比A組少了 40%。且遷移效率隨多樣化數(shù)據(jù)量的增加而提升，模型在新任務(wù)上的驗(yàn)證誤差持續(xù)下降。

多樣化采集預(yù)訓(xùn)練的模型比干凈數(shù)據(jù)采集訓(xùn)練的模型有更快的收斂速度和更好的驗(yàn)證誤差。

不同數(shù)據(jù)規(guī)模下的模型效果，擴(kuò)大多樣化采集的數(shù)據(jù)規(guī)模可以持續(xù)降低模型的驗(yàn)證誤差。

另一項(xiàng)驚喜的“附帶效果”是，由于無(wú)需精心設(shè)置每個(gè)場(chǎng)景并定義詳細(xì)的任務(wù)指導(dǎo)，數(shù)據(jù)采集效率大幅提升，人均有效采集時(shí)長(zhǎng)增加了 200%，算法專(zhuān)家的干預(yù)需求削減了 60%。

從 Pi0.5 到 Spirit v1.5，我們看到的不是單點(diǎn)技術(shù)的“奇襲”，而是中國(guó)團(tuán)隊(duì)在數(shù)據(jù)范式的一次根本性轉(zhuǎn)變。通過(guò)走出腳本化的環(huán)境，Spirit v1.5 證明了模型可以發(fā)展出一種基礎(chǔ)的“物理常識(shí)”，使其在現(xiàn)實(shí)世界中更具適應(yīng)性和韌性。

在這場(chǎng)通往物理 AGI 的競(jìng)賽中，中國(guó)模型沒(méi)有缺席，并準(zhǔn)備好迎接下一輪關(guān)乎應(yīng)用的沖刺。

04
尾聲：誰(shuí)開(kāi)始擁有“被長(zhǎng)期綁定”的資格？

如果說(shuō) 2025 年只是具身智能落地元年，產(chǎn)業(yè)界尚能對(duì)翻車(chē)報(bào)以寬和一笑；那么 2026 將會(huì)是量產(chǎn)爬坡元年，對(duì)于智能的真實(shí)性，下游廠商會(huì)看的更重。一個(gè)機(jī)器人模型能否成為產(chǎn)業(yè)的“默認(rèn)選項(xiàng)”之一，恰恰取決于它是否可靠、可泛化遷移，且具備持續(xù)進(jìn)化的潛力。

Spirit v1.5 登頂，釋放了一個(gè)信號(hào)：國(guó)產(chǎn)具身模型，已經(jīng)開(kāi)始具備這種“被長(zhǎng)期綁定”的資格。

放長(zhǎng)時(shí)間線，這將引發(fā)三重連鎖反應(yīng)：

? 產(chǎn)業(yè)合作格局將被重塑。過(guò)去，尋找先進(jìn)模型的目光可能首先投向海外；但現(xiàn)在，一個(gè)經(jīng)過(guò)權(quán)威驗(yàn)證的國(guó)產(chǎn)選項(xiàng)出現(xiàn)了，更多國(guó)內(nèi)產(chǎn)業(yè)巨頭會(huì)將其納入考量范疇。

去年底，千尋智能的人形機(jī)器人“小墨”進(jìn)入寧德時(shí)代中州基地，在后者新能源動(dòng)力電池PACK生產(chǎn)線批量落地，它能自主應(yīng)對(duì)來(lái)料位置偏差和插接點(diǎn)位變化，實(shí)時(shí)調(diào)整操作姿態(tài)。在插拔柔性線束時(shí)，它還能動(dòng)態(tài)調(diào)節(jié)力度，確保不損傷部件并連接可靠。把單日工作量提升了三倍，插接成功率超99%，作業(yè)節(jié)拍達(dá)到熟練工人水平。

接下來(lái)，這樣的合作模式將會(huì)被大量復(fù)制。

? 技術(shù)生態(tài)站隊(duì)開(kāi)始。在操作系統(tǒng)、芯片等領(lǐng)域發(fā)生過(guò)的生態(tài)之爭(zhēng)，可能在具身智能領(lǐng)域重演。頭部模型會(huì)成為吸引開(kāi)發(fā)者、硬件廠商、場(chǎng)景方共建生態(tài)的漩渦眼。誰(shuí)能率先建立起圍繞自身模型的軟硬件開(kāi)發(fā)生態(tài)，誰(shuí)就可能在下一階段取得決定性?xún)?yōu)勢(shì)。

? 開(kāi)源體系將繼續(xù)良性循環(huán)。

有趣的是，贏得“鐵王座”的——發(fā)布即開(kāi)源的Spirit v1.5，長(zhǎng)期霸榜的Pi——無(wú)一例外是開(kāi)源模型。具身智能領(lǐng)域，至少在短期內(nèi)，開(kāi)源已經(jīng)成為不約而同的選擇。

Hugging Face聯(lián)合創(chuàng)始人兼首席科學(xué)家Thomas Wolf很早就觀察到：機(jī)器人的主要玩家?guī)缀跞渴情]源的，“像Tesla、Figure，它們做的機(jī)器人非常出色，但整個(gè)體系都是垂直封閉的閉源堆……你無(wú)法拿一個(gè)Optimus去改造成你自己的機(jī)器人。”

但在開(kāi)源模型的集體勝利后，具身智能領(lǐng)域可能重演2025年初DeepSeek勝利后LLM領(lǐng)域開(kāi)源復(fù)興的局面。它將拆除實(shí)驗(yàn)室的高墻，將工具分發(fā)到每一個(gè)有想法的人手中。當(dāng)研究者們能夠基于同一個(gè)強(qiáng)大的基礎(chǔ)模型進(jìn)行二次開(kāi)發(fā)時(shí)，創(chuàng)新的速度將以指數(shù)級(jí)提升，靠單一公司或機(jī)構(gòu)無(wú)法窮盡的場(chǎng)景、數(shù)據(jù)和長(zhǎng)尾問(wèn)題也將能更快完成拼圖。

同時(shí)，透明，也是最高效的信任貨幣。開(kāi)源模型將代碼、數(shù)據(jù)乃至架構(gòu)設(shè)計(jì)完全公開(kāi)，意味著其經(jīng)得起最挑剔的同行反復(fù)審視、驗(yàn)證。

所有玩家回歸技術(shù)本源，用代碼說(shuō)話，行業(yè)的浮夸與泡沫也將在這面“照妖鏡”前加速消散。

開(kāi)源地址：

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog：https://www.spirit-ai.com/en/blog/spirit-v1-5

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.