![]()
編輯|Panda
2026 年的春天,具身智能賽道迎來(lái)了前所未有的狂熱浪潮,短短兩個(gè)月內(nèi)更是已經(jīng)實(shí)現(xiàn)了全行業(yè)近 150 億元的驚人融資。
當(dāng)無(wú)數(shù)創(chuàng)業(yè)者奔走于各大投資機(jī)構(gòu)的會(huì)議室大談通用智能的宏大敘事時(shí),也有人可能正待在實(shí)驗(yàn)室里,與代碼和硬件構(gòu)成的機(jī)器人死磕。
黃巖就是其中之一。在堆滿線纜和測(cè)試道具的實(shí)驗(yàn)臺(tái)前,他和學(xué)生為了弄清機(jī)械臂在抓取復(fù)雜零件時(shí)為何總是出現(xiàn)微小的物理偏差,常常一待就是十幾個(gè)小時(shí)。他們會(huì)盯著屏幕上動(dòng)態(tài)刷新的三維熱力圖,反復(fù)拆解并重構(gòu)底層的感知代碼,直到那條機(jī)械手臂在真實(shí)的物理空間中完成一次精準(zhǔn)貼合。
黃巖擁有兩個(gè)截然不同卻又緊密咬合的身份。在學(xué)術(shù)界,他是中科院自動(dòng)化所的研究員與博士生導(dǎo)師,在各大國(guó)際計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議中擔(dān)任領(lǐng)域主席。在工業(yè)界,他兼職具身智能新銳企業(yè)中科第五紀(jì)的青年首席科學(xué)家,也是一位深度參與商業(yè)落地的技術(shù)實(shí)干派。
更為關(guān)鍵的是,作為具身智能全棧技術(shù)的代表人物之一,他的技術(shù)背景完整覆蓋了多模態(tài)感認(rèn)知技術(shù)、具身世界模型技術(shù)與強(qiáng)化學(xué)習(xí)技術(shù)。他所主導(dǎo)的模型創(chuàng)新,深深扎根于真實(shí)的工業(yè)場(chǎng)景需求,致力于解決數(shù)據(jù)短缺并極致提升數(shù)據(jù)的利用率。他試圖在這個(gè)喧囂的 2026 年,用一種近乎極客的狂熱與克制,為復(fù)雜的 AI 算法尋找一個(gè)能在真實(shí)物理世界中穩(wěn)健運(yùn)行的軀體。
![]()
近日,機(jī)器之心獨(dú)家專訪了這位已有超 1.2 萬(wàn)引用量的多模態(tài)和具身智能研究者。在這場(chǎng)專訪中,黃巖拋開(kāi)熱鬧的行業(yè)表象,與我們分享了他和團(tuán)隊(duì)在具身大模型領(lǐng)域的探索歷程 —— 當(dāng)行業(yè)內(nèi)都在談?wù)摂?shù)據(jù)量、算力問(wèn)題時(shí),他們另辟蹊徑,從真實(shí)場(chǎng)景痛點(diǎn)出發(fā),展開(kāi)了全棧式架構(gòu)重構(gòu),通過(guò)一場(chǎng)技術(shù)實(shí)戰(zhàn),解決了行業(yè)內(nèi)數(shù)據(jù)利用效率瓶頸。
前瞻性的技術(shù)直覺(jué)
成就國(guó)內(nèi)具身智能「拓疆者」
把時(shí)間指針撥回 2013 年,深度學(xué)習(xí)剛剛開(kāi)始在計(jì)算機(jī)視覺(jué)領(lǐng)域撕開(kāi)一道口子。當(dāng)時(shí)的學(xué)術(shù)界主流依然在追逐純文本的自然語(yǔ)言處理,或者純粹的圖像識(shí)別技術(shù)。
黃巖則選擇了一條跨界的冷門路線:將視覺(jué)與語(yǔ)言進(jìn)行結(jié)合
「當(dāng)時(shí)之所以選擇視覺(jué)-語(yǔ)言,本質(zhì)上還是基于對(duì)這個(gè)技術(shù)的個(gè)人喜好。」黃巖在采訪中向機(jī)器之心回憶起當(dāng)初的決定,「我覺(jué)得這個(gè)任務(wù)的想象空間會(huì)比較大一些,它不單單是純粹去理解語(yǔ)言,或者僅僅去關(guān)注視覺(jué)的一些內(nèi)容。」
這種前瞻性的技術(shù)直覺(jué),為他日后進(jìn)軍具身智能埋下了伏筆。
隨著多模態(tài)技術(shù)的飛速發(fā)展,到了 2019 年,純軟件層面的算法研究逐漸開(kāi)始走向大一統(tǒng)的狀態(tài)。為了打破常規(guī)的算力堆疊,黃巖在這一年已經(jīng)開(kāi)始研究和創(chuàng)新強(qiáng)化學(xué)習(xí)算法(此前曾在圍棋 AI AlphaGo 中大放異彩),并在語(yǔ)言驅(qū)動(dòng)的視頻行為定位任務(wù)上取得了當(dāng)時(shí)的國(guó)際領(lǐng)先精度。
通過(guò)強(qiáng)化學(xué)習(xí),他們成功增強(qiáng)了視覺(jué)-語(yǔ)言模型的類人時(shí)空選擇性注意等認(rèn)知機(jī)制。模型只需要?jiǎng)討B(tài)跳轉(zhuǎn) 5 到 8 次即可快速把握視頻中的關(guān)鍵行為信息,完全不需要耗時(shí)耗力地去提取時(shí)空目標(biāo)框,這讓執(zhí)行效率顯著提升了 7 倍。這項(xiàng)開(kāi)創(chuàng)性的工作也成功入選為計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 的 Oral 論文,躋身前 3% 的頂尖行列。
![]()
這篇 CVPR 2019 論文開(kāi)創(chuàng)性地研究了「通過(guò)句子查詢來(lái)定位活動(dòng)」的問(wèn)題,并提出了一種語(yǔ)義強(qiáng)化學(xué)習(xí)模型并取得了 SOTA 成績(jī)。
這種強(qiáng)化學(xué)習(xí)基因,在多模態(tài)大模型時(shí)代結(jié)出了新的果實(shí)。針對(duì)當(dāng)前多模態(tài)大語(yǔ)言模型(MLLM)在與人類偏好對(duì)齊方面的顯著短板,中科第五紀(jì)團(tuán)隊(duì)內(nèi)多名成員深度參與,推出了代表性成果 MM-RLHF。他們不僅構(gòu)建了當(dāng)時(shí)規(guī)模最大、覆蓋場(chǎng)景最廣的多模態(tài)偏好數(shù)據(jù)集,還提出了一種能夠解釋為何回答更好或更差的新型獎(jiǎng)勵(lì)模型架構(gòu),并輔以 MM-DPO 算法,成功規(guī)避了傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定和超參數(shù)敏感的問(wèn)題。這是多模態(tài)領(lǐng)域首個(gè)系統(tǒng)性將強(qiáng)化學(xué)習(xí)技術(shù)擴(kuò)展到全方位人類偏好對(duì)齊的工作,標(biāo)志著大模型從能力構(gòu)建階段邁向了價(jià)值對(duì)齊階段。
然而,無(wú)論是多模態(tài)感知還是價(jià)值對(duì)齊,如果不與真實(shí)的物理世界發(fā)生物理接觸,算法的潛力終將受限。黃巖意識(shí)到,需要為這些算法裝上物理軀殼,所以他最早選擇把視覺(jué)-語(yǔ)言算法直接用到機(jī)器人導(dǎo)航上。
當(dāng)從安靜的服務(wù)器云端進(jìn)入布滿雜物與摩擦力的真實(shí)物理世界時(shí),現(xiàn)實(shí)很快就給他上了一堂殘酷的課。在早期的真機(jī)部署嘗試中,團(tuán)隊(duì)面臨著極其致命的虛實(shí)遷移難題。
「最大的問(wèn)題在于,我們?cè)谔摂M空間或者模擬器中訓(xùn)練出的一個(gè)非常出色的導(dǎo)航模型,是無(wú)法直接部署到真機(jī)上的。」黃巖指出了其中的殘酷現(xiàn)實(shí)。他強(qiáng)調(diào)模擬器數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異非常大:在模擬器里有 80% 的準(zhǔn)確率,拿到真機(jī)上可能 10% 都沒(méi)有,這種極端的落差是極有可能發(fā)生的。
模擬器數(shù)據(jù)與真實(shí)數(shù)據(jù)之間巨大的分布差異,讓黃巖深刻體會(huì)到物理世界的不可預(yù)測(cè)性。在這場(chǎng)從零開(kāi)始的探索中,他沒(méi)有退縮,反而被激起了技術(shù)狂熱者的斗志。他明白,要想真正馴服機(jī)器人的物理軀體,就必須拋棄對(duì)仿真數(shù)據(jù)的完全依賴,重新回到真實(shí)世界中,在底層架構(gòu)上尋找提升真實(shí)數(shù)據(jù)利用率的解法。這也為后來(lái)中科第五紀(jì)一系列完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的架構(gòu)創(chuàng)新奠定了基調(diào)。
全棧技術(shù)硬核「實(shí)干派」代表
對(duì)抗算力與數(shù)據(jù)的狂熱
在當(dāng)下的具身智能賽道,將大語(yǔ)言模型領(lǐng)域的 Scaling Law 平移過(guò)來(lái),似乎成了一種行業(yè)共識(shí)。許多初創(chuàng)企業(yè)和頭部大廠試圖通過(guò)搭建龐大的數(shù)據(jù)工廠,用暴力堆疊算力和海量數(shù)據(jù)的方式來(lái)催熟具身大腦。
面對(duì)這種對(duì)算力與數(shù)據(jù)的狂熱迷信,黃巖保持著冷靜的審視。
實(shí)際上,早在行業(yè)沉迷于數(shù)據(jù)堆疊的初期,黃巖就前瞻性地預(yù)測(cè)到了這條路徑的極大挑戰(zhàn)。但他所堅(jiān)持的這條「極少樣本」和「新架構(gòu)」的冷門路線,在早期也曾面臨過(guò)外界的質(zhì)疑。
黃巖在采訪中回憶了那段時(shí)期:「當(dāng)時(shí)的環(huán)境下,大家都在關(guān)注具身大模型的通用性和泛化性,甚至宣稱要在兩三年之內(nèi)就要訓(xùn)練出一個(gè)能夠進(jìn)入家庭的具身大模型,走這種高舉高打的路線。」
面對(duì)這種狂熱的行業(yè)情緒,黃巖從純粹技術(shù)的角度給出了冷靜的判斷。他認(rèn)為短期內(nèi)真正做出一個(gè)通用的具身大模型并進(jìn)入家庭是非常具有挑戰(zhàn)性的,而且時(shí)間很可能遠(yuǎn)遠(yuǎn)不夠。
「我們經(jīng)過(guò)很長(zhǎng)時(shí)間的討論,最終選擇了一個(gè)相對(duì)務(wù)實(shí)的路線。」黃巖表示。他帶領(lǐng)團(tuán)隊(duì)果斷放棄了追逐短期的通用神話,轉(zhuǎn)而聚焦真實(shí)的工業(yè)場(chǎng)景,有針對(duì)性地去解決樣本量少、可靠性低等最核心的產(chǎn)業(yè)痛點(diǎn)。黃巖在采訪中給出了自己的判斷:「想要實(shí)現(xiàn)具身領(lǐng)域的 Scaling Law,它的數(shù)據(jù)量一定要提升得很快,數(shù)量要非常非常多。只有在數(shù)據(jù)量非常充足的情況下,我們?cè)偃ヌ嵘懔蛥?shù)量才是有意義的。」他認(rèn)為,以目前物理世界交互數(shù)據(jù)的積累速度,一味地提升參數(shù)量,有可能需要很長(zhǎng)時(shí)間才能夠達(dá)到引發(fā)智能涌現(xiàn)的時(shí)間點(diǎn)。
行業(yè)首創(chuàng)超少樣本大模型,拒絕暴力堆疊
作為一位務(wù)實(shí)的全棧技術(shù)代表,他拒絕等待虛無(wú)縹緲的海量數(shù)據(jù)涌現(xiàn)。基于對(duì)數(shù)據(jù)瓶頸的精準(zhǔn)預(yù)判,黃巖與中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)潛心打磨,基于更早之前開(kāi)發(fā)的BridgeVLA推出了行業(yè)首個(gè)超少樣本大模型FAM 系列
![]()
這堪稱一次極客美學(xué)的底層重構(gòu),也是少有的、完全圍繞解決具身智能場(chǎng)景痛點(diǎn)而設(shè)計(jì)的專屬架構(gòu)。
「當(dāng)我們確實(shí)有海量數(shù)據(jù)時(shí),直接利用數(shù)據(jù)進(jìn)行暴力擬合可能是最簡(jiǎn)單、短平快的方法。」黃巖一語(yǔ)道破了當(dāng)前主流視覺(jué)-語(yǔ)言-動(dòng)作(VLA)架構(gòu)的痛點(diǎn):「但現(xiàn)有的架構(gòu)丟掉了太多的高維空間結(jié)構(gòu)信息。」
他向我們剖析了傳統(tǒng)架構(gòu)中那個(gè)致命的維度瓶頸:模型的輸入往往是二維甚至三維的視覺(jué)信息,輸出也是三維的動(dòng)作,但在模型內(nèi)部處理時(shí),卻被強(qiáng)行壓縮成了一維的表征。
「在這個(gè)壓縮過(guò)程中,大量與空間結(jié)構(gòu)緊密相關(guān)的信息被丟掉了,保留下來(lái)的多是偏向語(yǔ)義層面的內(nèi)容,例如物體名稱、屬性、顏色等。」黃巖解釋道,「這些語(yǔ)義信息對(duì)精確的動(dòng)作生成雖然有貢獻(xiàn),但不會(huì)特別明顯。」
為了找回丟失的三維空間,解決工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)匱乏的難題,中科第五紀(jì)與中科院自動(dòng)化所團(tuán)隊(duì)在 FAM 模型中引入了全局與局部協(xié)同的精妙設(shè)計(jì)。
![]()
BridgeVLA 是一種新型 3D VLA 模型,它在統(tǒng)一的 2D 圖像空間內(nèi)對(duì)齊輸入和輸出。它使用 2D 熱力圖在對(duì)象定位任務(wù)上進(jìn)行預(yù)訓(xùn)練,并在 3D 操作的動(dòng)作預(yù)測(cè)任務(wù)上進(jìn)行微調(diào)。在仿真和真實(shí)世界中的實(shí)驗(yàn)結(jié)果表明,它能夠高效且有效地學(xué)習(xí) 3D 操作。arXiv:2506.07961
黃巖揭示了其中的核心原理:「我們主要是把模型中間層,從一維特征拉高到三維的熱力圖,讓整個(gè)空間結(jié)構(gòu)建模能力能夠在模型中間流動(dòng)起來(lái)。」這種無(wú)損傳遞空間信息的設(shè)計(jì),讓模型從很大程度上擺脫了對(duì)龐大數(shù)據(jù)量死記硬背的依賴。
同時(shí),這種專為具身場(chǎng)景設(shè)計(jì)的架構(gòu),賦予了中科第五紀(jì)的具身機(jī)器人一種「既見(jiàn)森林,又見(jiàn)樹(shù)木」的罕見(jiàn)認(rèn)知能力。它不僅能夠通過(guò)三維熱力圖進(jìn)行全局的空間結(jié)構(gòu)建模(見(jiàn)森林),還能通過(guò)獨(dú)創(chuàng)的局部注意力機(jī)制,精準(zhǔn)鎖定料箱把手、零件邊緣等關(guān)鍵操作點(diǎn)(見(jiàn)樹(shù)木)。
![]()
「既見(jiàn)森林,又見(jiàn)樹(shù)木」的比喻源自黃巖參與的一篇 CVPR 2017 論文。
這種全局與局部的無(wú)縫協(xié)同,加上對(duì)真實(shí)場(chǎng)景痛點(diǎn)的定向攻堅(jiān),造就了中科第五紀(jì)在全球范圍內(nèi)極具統(tǒng)治力的小樣本技術(shù)表現(xiàn)。
在真實(shí)的工業(yè)落地中,這種架構(gòu)創(chuàng)新轉(zhuǎn)化為了一種強(qiáng)悍的實(shí)戰(zhàn)能力:面對(duì)全新的任務(wù),F(xiàn)AM 模型在極限情況下僅需 3 到 5 條真機(jī)演示數(shù)據(jù),即可完成高可靠性的部署,基礎(chǔ)任務(wù)成功率近 97%。
![]()
中科第五紀(jì)用這種冠絕行業(yè)的數(shù)據(jù)利用效率,定向擊穿了長(zhǎng)期困擾具身智能落地的「數(shù)據(jù)荒」壁壘。
同時(shí),模型的泛化能力也能得到極大提升。即便面對(duì)光照變化、復(fù)雜背景、干擾物體等極具挑戰(zhàn)性的泛化場(chǎng)景,該模型依然能夠保持高度的穩(wěn)定性。這種極低成本的部署能力,正是打通工業(yè)場(chǎng)景商業(yè)閉環(huán)的關(guān)鍵所在。
![]()
利用世界模型,做具身安全的守衛(wèi)者
如果在操作層面的創(chuàng)新是為了「能干活」,那么將世界模型引入執(zhí)行端,則是黃巖為了「安全干活」而上的一道保險(xiǎn)。
對(duì)于想要跑通商業(yè)閉環(huán)的企業(yè)而言,工業(yè)安全是一個(gè)無(wú)法回避的紅線。黃巖在采訪中列舉了非常具體的落地痛點(diǎn):「例如在做產(chǎn)品出廠前的質(zhì)檢時(shí),有時(shí)操作用的力比較大,把東西拉壞了,或者是操作半徑太大,碰到了周邊其他物體,這些都會(huì)產(chǎn)生潛在的安全隱患。」
他最初的出發(fā)點(diǎn)非常直接:「利用世界模型預(yù)見(jiàn)未來(lái)的能力,讓大模型在感知到未來(lái)的情況下產(chǎn)生更準(zhǔn)確的行為。」
然而,讓機(jī)器人真正學(xué)會(huì)預(yù)演未來(lái)面臨著一條巨大的鴻溝:視頻生成模型看懂的是像素,機(jī)器人輸出的動(dòng)作是坐標(biāo)系里的位姿。為了跨越這道墻,中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)推出了BridgeV2W 世界模型,其中引入了極具巧思的本體掩碼(Embodiment Mask)設(shè)計(jì)。
![]()
BridgeV2W 流程概述。使用 URDF 和相機(jī)參數(shù)將動(dòng)作投影到像素空間掩碼中。初始圖像和掩碼序列由 VAE 編碼,掩碼特征通過(guò) ControlNet 分支注入到 DiT 主干中。該模型生成與動(dòng)作一致的視頻,訓(xùn)練時(shí)采用擴(kuò)散、動(dòng)態(tài)一致性和基于流的目標(biāo)函數(shù)。arXiv:2602.03793
黃巖解釋道:「我們主要是想規(guī)避掉直接從坐標(biāo)點(diǎn)映射到視頻像素的困難,本質(zhì)上是把不同的行為序列,直接轉(zhuǎn)化到像素的層面上去。」通過(guò)將抽象的坐標(biāo)實(shí)時(shí)渲染成二維圖像上的動(dòng)作剪影,預(yù)訓(xùn)練的視頻大模型瞬間就能看懂機(jī)器人的動(dòng)作意圖,從而真正打通視頻生成與具身世界模型之間的橋梁。
![]()
BridgeV2W 在 DROID 數(shù)據(jù)集上的單臂操作預(yù)測(cè)。尤其在「未見(jiàn)視角」測(cè)試中,對(duì)比方法常出現(xiàn)畫面崩塌、肢體錯(cuò)位,而 BridgeV2W 依然生成物理合理、視覺(jué)連貫的未來(lái)視頻,充分驗(yàn)證了其視角魯棒性。在「未見(jiàn)場(chǎng)景」(全新桌面布局、背景)下,泛化能力同樣出色。
探索具身強(qiáng)化學(xué)習(xí)前沿的架構(gòu)師
除了多模態(tài)感知與世界模型,黃巖還將對(duì)技術(shù)的追求延伸到了強(qiáng)化學(xué)習(xí)領(lǐng)域。為了進(jìn)一步提升跨場(chǎng)景的泛化能力并降低交付成本,團(tuán)隊(duì)開(kāi)展了具身強(qiáng)化學(xué)習(xí)后訓(xùn)練,并完成了一項(xiàng)名為E-TTS的「具身測(cè)試時(shí)拓展」前期工作。
現(xiàn)有的 VLA 強(qiáng)化學(xué)習(xí)方法通常先生成中間推理,再生成動(dòng)作。這種方式往往只強(qiáng)化學(xué)習(xí)動(dòng)作空間,卻忽略了推理質(zhì)量對(duì)動(dòng)作的決定性影響。
E-TTS 框架通過(guò)三個(gè)核心機(jī)制解決了這一痛點(diǎn):首先是推理與動(dòng)作的聯(lián)合擴(kuò)展,同時(shí)擴(kuò)展推理軌跡和動(dòng)作候選;其次是歷史感知的閉環(huán)驗(yàn)證,結(jié)合過(guò)去的歷史推理與動(dòng)作對(duì)以捕捉長(zhǎng)程依賴;最后是自適應(yīng)在線選擇策略,通過(guò)動(dòng)態(tài)分配計(jì)算資源避免陷入局部最優(yōu)。
這項(xiàng)工作展現(xiàn)出了極高的工程實(shí)用價(jià)值。它不需要像傳統(tǒng)的 PPO 或 DPO 算法那樣更新模型權(quán)重,也無(wú)需收集額外的專家數(shù)據(jù)或進(jìn)行微調(diào),極大地降低了落地門檻。在這一框架中,驗(yàn)證器扮演了過(guò)程獎(jiǎng)勵(lì)模型的角色,在每一步對(duì)推理和動(dòng)作的質(zhì)量進(jìn)行打分,實(shí)現(xiàn)方式更加輕量、靈活。
更為重要的是,這項(xiàng)研究向全行業(yè)證明了一個(gè)極具啟示性的結(jié)論:在機(jī)器人領(lǐng)域,單純擴(kuò)大模型規(guī)模或數(shù)據(jù)集,不如在推理時(shí)引入「慢思考」機(jī)制有效。這為計(jì)算資源受限場(chǎng)景下的機(jī)器人智能提升開(kāi)辟了一條全新的路徑。
這種不卷算力、專注數(shù)據(jù)利用率,且完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的全棧式架構(gòu)重構(gòu),正是黃巖及中科第五紀(jì)能夠在商業(yè)化大考中脫穎而出的核心底牌。
探尋本源,將「人類認(rèn)知」刻入機(jī)器大腦
撥開(kāi) FAM 模型、BridgeV2W 世界模型以及 E-TTS 強(qiáng)化學(xué)習(xí)框架的技術(shù)外衣,黃巖及其團(tuán)隊(duì)所有架構(gòu)創(chuàng)新的深層驅(qū)動(dòng)力,源于一種試圖在硅基芯片上復(fù)現(xiàn)碳基智慧的極客執(zhí)念。
在學(xué)術(shù)界,黃巖出版過(guò)一本探討深度認(rèn)知網(wǎng)絡(luò)的專著《Deep Cognitive Networks》。這部著作的核心思路,就是通過(guò)模擬人類的認(rèn)知機(jī)制來(lái)增強(qiáng)深度學(xué)習(xí)的能力,相關(guān)成果還獲得了 2024 年北京市自然科學(xué)一等獎(jiǎng)。
![]()
這種對(duì)人類認(rèn)知機(jī)制的深度拆解,構(gòu)成了中科第五紀(jì)與中科院自動(dòng)化所合作研發(fā)的眾多技術(shù)創(chuàng)新的理論基石。
黃巖向機(jī)器之心總結(jié)了他十余年研究的一條隱形主線:「我們其實(shí)就是在關(guān)注人腦的注意、記憶、推理、決策等認(rèn)知機(jī)制,去實(shí)現(xiàn)它的信息選擇性過(guò)濾、知識(shí)存儲(chǔ)復(fù)用、動(dòng)態(tài)推理以及主動(dòng)決策等認(rèn)知功能。」
無(wú)論是 FAM 模型像人類雙眼一樣進(jìn)行局部注意力聚焦,還是 BridgeV2W 世界模型像人類大腦一樣對(duì)未來(lái)物理操作進(jìn)行安全預(yù)判,亦或是 E-TTS 框架中引入的「慢思考」推理機(jī)制,其核心機(jī)制都在嘗試建立一套符合具身認(rèn)知規(guī)律的智能系統(tǒng)
既然這套模擬人類認(rèn)知的「大腦框架」已有雛形,它亟需海量的數(shù)據(jù)燃料來(lái)啟動(dòng)運(yùn)轉(zhuǎn)。真實(shí)物理交互數(shù)據(jù)極其昂貴,但黃巖很早就將目光投向了另一座巨大的寶庫(kù):互聯(lián)網(wǎng)上海量的人類操作視頻。
讓機(jī)器人直接看懂人類的教學(xué)視頻并學(xué)會(huì)操作,是具身智能領(lǐng)域公認(rèn)的圣杯之一。這其中的阻力顯而易見(jiàn)。
「網(wǎng)絡(luò)上其實(shí)是有很多操作視頻的,但是它們沒(méi)有動(dòng)作標(biāo)注。」黃巖指出了直接利用這些數(shù)據(jù)的最大痛點(diǎn),「如果我們直接讓人工做動(dòng)作標(biāo)注,其實(shí)非常困難。」
為了繞開(kāi)繁瑣的人工標(biāo)注環(huán)節(jié),真正將這些沉睡的視頻資產(chǎn)激活,中科第五紀(jì)聯(lián)合中科院自動(dòng)化所提出了一種名為EC-Flow的流預(yù)測(cè)框架。這項(xiàng)極具前瞻性的研究成果已被計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 ICCV 2025 接收。
![]()
EC-Flow,即以本體(Embodiment)為中心的流預(yù)測(cè)網(wǎng)絡(luò)架構(gòu)。分支(a):本體流的預(yù)測(cè)分支(b):目標(biāo)圖像的預(yù)測(cè),該預(yù)測(cè)作為輔助任務(wù),用于將流與對(duì)象交互和語(yǔ)言指令對(duì)齊。arXiv:2507.06224
黃巖解釋了這套方案精妙的解題思路:「我們嘗試去關(guān)注它中間層面的運(yùn)動(dòng)情況,例如圖像中機(jī)械臂關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡。拿到這些運(yùn)動(dòng)軌跡之后,再通過(guò)機(jī)器人本體的配置文件,解算出它的精確行為。」
![]()
在真實(shí)世界的開(kāi)冰箱任務(wù)上的流預(yù)測(cè)和實(shí)際任務(wù)執(zhí)行示例。
通過(guò)這種方式,機(jī)器人仿佛擁有了「看視頻自學(xué)」的能力。在面臨被遮擋物體、可變形物體操作等高難度任務(wù)時(shí),其成功率較當(dāng)時(shí)的最佳方案分別提升了 62% 和 45%。
![]()
Meta-World 基準(zhǔn)測(cè)試上的模擬結(jié)果。
![]()
在真實(shí)世界操作任務(wù)上的結(jié)果。
這項(xiàng)技術(shù)的巨大潛力也引起了國(guó)際頂尖學(xué)者的關(guān)注,斯坦福大學(xué)李飛飛團(tuán)隊(duì)在近期發(fā)布的 Dream2Flow 研究中便引用了這篇論文。
![]()
Dream2Flow 論文中引用 EC-Flow 的內(nèi)容。
除了挖掘現(xiàn)有視頻,中科第五紀(jì)還聯(lián)合中科院自動(dòng)化所將這種提升數(shù)據(jù)利用率的巧思應(yīng)用到了數(shù)據(jù)合成領(lǐng)域,研發(fā)了一鍵生成多視角數(shù)據(jù)的技術(shù)。
在真實(shí)場(chǎng)景的采集中,多攝像頭的布置成本高昂,且單視角往往容易面臨視覺(jué)遮擋的風(fēng)險(xiǎn)。黃巖指出,這項(xiàng)具身跨視角數(shù)據(jù)增廣方法的核心優(yōu)勢(shì)在于,能夠基于單一視角的演示數(shù)據(jù),自動(dòng)生成多角度且高保真的機(jī)器人訓(xùn)練數(shù)據(jù)。這套方法結(jié)合了動(dòng)作重定向與生成式視頻修復(fù)技術(shù),通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn),整個(gè)過(guò)程完全無(wú)需人工標(biāo)注。使用該方法生成的數(shù)據(jù)進(jìn)行訓(xùn)練后,模型在已知視角和全新視角下的任務(wù)成功率最高分別提升了 18.3% 和 25.8%。
![]()
![]()
在這個(gè)以落地變現(xiàn)為主旋律的 2026 年,黃巖依然保留著對(duì)技術(shù)本源的純粹好奇。他在追求務(wù)實(shí)的商業(yè)戰(zhàn)場(chǎng)上,小心翼翼地守護(hù)著那份屬于極客的終極浪漫。
雙線作戰(zhàn),迎接 2026 年的商業(yè)大考
如果說(shuō)在頂會(huì)發(fā)論文、探尋認(rèn)知機(jī)理是屬于極客的終極浪漫,那么 2026 年具身智能賽道的商業(yè)化現(xiàn)實(shí),則是一場(chǎng)冷酷的生存淘汰賽。
「去年,投資人更傾向通用的具身智能敘事。現(xiàn)在大家更看重能不能先扎進(jìn)一個(gè)具體的場(chǎng)景里,把活干好。」正如中科第五紀(jì)創(chuàng)始人兼 CEO 劉年豐所觀察到的那樣,一級(jí)市場(chǎng)對(duì)機(jī)器人的認(rèn)知已經(jīng)變得非常務(wù)實(shí)。投資人與客戶已經(jīng)略過(guò)了那些花哨的演示視頻,他們當(dāng)前只看重一點(diǎn):機(jī)器人在真實(shí)場(chǎng)景中能否創(chuàng)造真正的復(fù)購(gòu)率
在這場(chǎng)務(wù)實(shí)的商業(yè)大考中,中科第五紀(jì)交出了一份極具說(shuō)服力的答卷。2026 年初,公司在短短一個(gè)月內(nèi)接連完成規(guī)模達(dá)數(shù)億元的 Pre-A 及 Pre-A+ 輪融資,這正是對(duì)中科第五紀(jì)這種從真實(shí)工業(yè)痛點(diǎn)出發(fā)、腳踏實(shí)地的技術(shù)路線最直接的背書。
資本的青睞與堅(jiān)實(shí)的技術(shù)壁壘并非憑空出現(xiàn)。中科第五紀(jì)背后的核心研發(fā)團(tuán)隊(duì)來(lái)自中科院自動(dòng)化所和清華大學(xué),是一支擁有長(zhǎng)達(dá)十余年技術(shù)蟄伏的科研團(tuán)隊(duì)。
回顧團(tuán)隊(duì)的發(fā)展歷程,他們不僅是國(guó)內(nèi)最早投入多模態(tài)研發(fā)的先驅(qū)之一,更在學(xué)術(shù)與工程的交匯處刻下了眾多開(kāi)創(chuàng)性的里程碑。早在 2013 年他們便發(fā)表了第一篇視覺(jué)-語(yǔ)言理解領(lǐng)域的 ICCV 論文;2016 年將注意力機(jī)制引入多模態(tài)匹配任務(wù)并達(dá)到國(guó)際領(lǐng)先;2019 年率先投入視覺(jué)-語(yǔ)言-導(dǎo)航(VLN)模型的研發(fā),并于 2023 年在全世界率先實(shí)現(xiàn)了該模型的真機(jī)部署。
![]()
中科第五紀(jì)的發(fā)展歷程。
在實(shí)戰(zhàn)對(duì)抗中,從 2016 年斬獲 IROS 機(jī)械手抓取與操作冠軍,到 2024 年研發(fā)出業(yè)內(nèi)首個(gè)世界模型的 VLA 大模型,再到 2025 年接連奪得 CVPR 通用操作泛化性挑戰(zhàn)賽冠軍與 ICRA 機(jī)器人虛實(shí)遷移冠軍,這支團(tuán)隊(duì)在具身智能的演進(jìn)之路上始終展現(xiàn)著硬核的集體作戰(zhàn)能力。
在這樣一支兼具學(xué)術(shù)深度與工程落地能力的隊(duì)伍中,在這個(gè)要求嚴(yán)苛的商業(yè)考場(chǎng)上,黃巖必須在兩種身份之間保持精準(zhǔn)的平衡。
學(xué)術(shù)界,他需要帶領(lǐng)學(xué)生探索前沿,哪怕面臨極高的失敗率;在工業(yè)界,他需要從實(shí)際場(chǎng)景中提煉關(guān)鍵科學(xué)問(wèn)題,然后相應(yīng)進(jìn)行模型算法的研發(fā)。
為了將領(lǐng)先的技術(shù)壁壘轉(zhuǎn)化為真實(shí)的產(chǎn)業(yè)生產(chǎn)力,中科第五紀(jì)構(gòu)建了從底層架構(gòu)到軟硬協(xié)同的完整交付能力,面向客戶直接交付具有通用泛化能力的具身大腦和具身機(jī)器人。
在硬件實(shí)體層面,團(tuán)隊(duì)推出了自研的輕量化輪式具身機(jī)器人。這款身高 187 cm 的機(jī)器人全身具備 28 個(gè)自由度,其仿人形手臂集高負(fù)載與高精度力控于一身,具備亞毫米級(jí)的裝配與作業(yè)能力,能夠滿足全天候的連續(xù)作業(yè)需求。
![]()
在生態(tài)賦能層面,中科第五紀(jì)正在以具身大腦供應(yīng)商的身份,向更為廣闊的千行百業(yè)滲透。目前,該公司已陸續(xù)與多家知名大型央企展開(kāi)合作。
黃巖對(duì)這種商業(yè)落地策略有著清晰的定位:「具身智能的真正壁壘在于大腦的通用性與泛化能力。我們通過(guò)提供統(tǒng)一的模型大腦來(lái)賦能各式各樣的硬件本體,這樣既能讓機(jī)器人更快地進(jìn)入真實(shí)的作業(yè)場(chǎng)景,也能利用規(guī)模化的出貨來(lái)反哺我們的數(shù)據(jù)體系。」
伴隨著不斷擴(kuò)展的商業(yè)版圖和過(guò)硬的落地能力,中科第五紀(jì)正向著「讓百萬(wàn)機(jī)器人服務(wù)于人類」的愿景穩(wěn)步邁進(jìn)。
![]()
結(jié)語(yǔ)
采訪臨近結(jié)束時(shí),我們的話題回到了那個(gè)布滿雜物、光線變幻莫測(cè)的真實(shí)產(chǎn)線。
當(dāng)行業(yè)客戶們拋出那個(gè)頻繁被提出的「適應(yīng)新場(chǎng)景需要多久」的嚴(yán)苛問(wèn)題時(shí),中科第五紀(jì)的機(jī)器人們已經(jīng)做好了準(zhǔn)備。它們不需要在模擬器里跑上幾萬(wàn)次,也不需要依賴堆積如山的服務(wù)器集群去強(qiáng)行記住每一個(gè)像素的改變。只需人類工程師帶著它們?cè)诂F(xiàn)場(chǎng)做 3 到 5 次示范,它們就能憑借著內(nèi)部流動(dòng)的空間熱力圖,瞬間領(lǐng)悟操作的物理真諦。
這份底氣,正是中科第五紀(jì)和中科院自動(dòng)化所團(tuán)隊(duì)用 13 年的技術(shù)蟄伏換來(lái)的。
在這個(gè)算力焦慮蔓延的時(shí)代,這位年輕的技術(shù)狂熱者與實(shí)干家證明了一件事:想要馴服龐大復(fù)雜的物理世界,靠的絕對(duì)不能是盲目的算力堆疊。只有懷揣著對(duì)底層認(rèn)知的敬畏,在每一次代碼重構(gòu)中將數(shù)據(jù)的利用率推向極致,具身智能的齒輪才能真正與人類社會(huì)的工業(yè)齒輪完美咬合。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.