網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

專訪中科第五紀(jì)黃巖：在具身智能的狂熱中，做一位技術(shù)實(shí)干家

2026-03-27 14:12:44　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜Panda

2026 年的春天，具身智能賽道迎來(lái)了前所未有的狂熱浪潮，短短兩個(gè)月內(nèi)更是已經(jīng)實(shí)現(xiàn)了全行業(yè)近 150 億元的驚人融資。

當(dāng)無(wú)數(shù)創(chuàng)業(yè)者奔走于各大投資機(jī)構(gòu)的會(huì)議室大談通用智能的宏大敘事時(shí)，也有人可能正待在實(shí)驗(yàn)室里，與代碼和硬件構(gòu)成的機(jī)器人死磕。

黃巖就是其中之一。在堆滿線纜和測(cè)試道具的實(shí)驗(yàn)臺(tái)前，他和學(xué)生為了弄清機(jī)械臂在抓取復(fù)雜零件時(shí)為何總是出現(xiàn)微小的物理偏差，常常一待就是十幾個(gè)小時(shí)。他們會(huì)盯著屏幕上動(dòng)態(tài)刷新的三維熱力圖，反復(fù)拆解并重構(gòu)底層的感知代碼，直到那條機(jī)械手臂在真實(shí)的物理空間中完成一次精準(zhǔn)貼合。

黃巖擁有兩個(gè)截然不同卻又緊密咬合的身份。在學(xué)術(shù)界，他是中科院自動(dòng)化所的研究員與博士生導(dǎo)師，在各大國(guó)際計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議中擔(dān)任領(lǐng)域主席。在工業(yè)界，他兼職具身智能新銳企業(yè)中科第五紀(jì)的青年首席科學(xué)家，也是一位深度參與商業(yè)落地的技術(shù)實(shí)干派。

更為關(guān)鍵的是，作為具身智能全棧技術(shù)的代表人物之一，他的技術(shù)背景完整覆蓋了多模態(tài)感認(rèn)知技術(shù)、具身世界模型技術(shù)與強(qiáng)化學(xué)習(xí)技術(shù)。他所主導(dǎo)的模型創(chuàng)新，深深扎根于真實(shí)的工業(yè)場(chǎng)景需求，致力于解決數(shù)據(jù)短缺并極致提升數(shù)據(jù)的利用率。他試圖在這個(gè)喧囂的 2026 年，用一種近乎極客的狂熱與克制，為復(fù)雜的 AI 算法尋找一個(gè)能在真實(shí)物理世界中穩(wěn)健運(yùn)行的軀體。

近日，機(jī)器之心獨(dú)家專訪了這位已有超 1.2 萬(wàn)引用量的多模態(tài)和具身智能研究者。在這場(chǎng)專訪中，黃巖拋開(kāi)熱鬧的行業(yè)表象，與我們分享了他和團(tuán)隊(duì)在具身大模型領(lǐng)域的探索歷程 —— 當(dāng)行業(yè)內(nèi)都在談?wù)摂?shù)據(jù)量、算力問(wèn)題時(shí)，他們另辟蹊徑，從真實(shí)場(chǎng)景痛點(diǎn)出發(fā)，展開(kāi)了全棧式架構(gòu)重構(gòu)，通過(guò)一場(chǎng)技術(shù)實(shí)戰(zhàn)，解決了行業(yè)內(nèi)數(shù)據(jù)利用效率瓶頸。

前瞻性的技術(shù)直覺(jué)

成就國(guó)內(nèi)具身智能「拓疆者」

把時(shí)間指針撥回 2013 年，深度學(xué)習(xí)剛剛開(kāi)始在計(jì)算機(jī)視覺(jué)領(lǐng)域撕開(kāi)一道口子。當(dāng)時(shí)的學(xué)術(shù)界主流依然在追逐純文本的自然語(yǔ)言處理，或者純粹的圖像識(shí)別技術(shù)。

黃巖則選擇了一條跨界的冷門路線：將視覺(jué)與語(yǔ)言進(jìn)行結(jié)合

「當(dāng)時(shí)之所以選擇視覺(jué)-語(yǔ)言，本質(zhì)上還是基于對(duì)這個(gè)技術(shù)的個(gè)人喜好。」黃巖在采訪中向機(jī)器之心回憶起當(dāng)初的決定，「我覺(jué)得這個(gè)任務(wù)的想象空間會(huì)比較大一些，它不單單是純粹去理解語(yǔ)言，或者僅僅去關(guān)注視覺(jué)的一些內(nèi)容。」

這種前瞻性的技術(shù)直覺(jué)，為他日后進(jìn)軍具身智能埋下了伏筆。

隨著多模態(tài)技術(shù)的飛速發(fā)展，到了 2019 年，純軟件層面的算法研究逐漸開(kāi)始走向大一統(tǒng)的狀態(tài)。為了打破常規(guī)的算力堆疊，黃巖在這一年已經(jīng)開(kāi)始研究和創(chuàng)新強(qiáng)化學(xué)習(xí)算法（此前曾在圍棋 AI AlphaGo 中大放異彩），并在語(yǔ)言驅(qū)動(dòng)的視頻行為定位任務(wù)上取得了當(dāng)時(shí)的國(guó)際領(lǐng)先精度。

通過(guò)強(qiáng)化學(xué)習(xí)，他們成功增強(qiáng)了視覺(jué)-語(yǔ)言模型的類人時(shí)空選擇性注意等認(rèn)知機(jī)制。模型只需要?jiǎng)討B(tài)跳轉(zhuǎn) 5 到 8 次即可快速把握視頻中的關(guān)鍵行為信息，完全不需要耗時(shí)耗力地去提取時(shí)空目標(biāo)框，這讓執(zhí)行效率顯著提升了 7 倍。這項(xiàng)開(kāi)創(chuàng)性的工作也成功入選為計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 的 Oral 論文，躋身前 3% 的頂尖行列。

這篇 CVPR 2019 論文開(kāi)創(chuàng)性地研究了「通過(guò)句子查詢來(lái)定位活動(dòng)」的問(wèn)題，并提出了一種語(yǔ)義強(qiáng)化學(xué)習(xí)模型并取得了 SOTA 成績(jī)。

這種強(qiáng)化學(xué)習(xí)基因，在多模態(tài)大模型時(shí)代結(jié)出了新的果實(shí)。針對(duì)當(dāng)前多模態(tài)大語(yǔ)言模型（MLLM）在與人類偏好對(duì)齊方面的顯著短板，中科第五紀(jì)團(tuán)隊(duì)內(nèi)多名成員深度參與，推出了代表性成果 MM-RLHF。他們不僅構(gòu)建了當(dāng)時(shí)規(guī)模最大、覆蓋場(chǎng)景最廣的多模態(tài)偏好數(shù)據(jù)集，還提出了一種能夠解釋為何回答更好或更差的新型獎(jiǎng)勵(lì)模型架構(gòu)，并輔以 MM-DPO 算法，成功規(guī)避了傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定和超參數(shù)敏感的問(wèn)題。這是多模態(tài)領(lǐng)域首個(gè)系統(tǒng)性將強(qiáng)化學(xué)習(xí)技術(shù)擴(kuò)展到全方位人類偏好對(duì)齊的工作，標(biāo)志著大模型從能力構(gòu)建階段邁向了價(jià)值對(duì)齊階段。

然而，無(wú)論是多模態(tài)感知還是價(jià)值對(duì)齊，如果不與真實(shí)的物理世界發(fā)生物理接觸，算法的潛力終將受限。黃巖意識(shí)到，需要為這些算法裝上物理軀殼，所以他最早選擇把視覺(jué)-語(yǔ)言算法直接用到機(jī)器人導(dǎo)航上。

當(dāng)從安靜的服務(wù)器云端進(jìn)入布滿雜物與摩擦力的真實(shí)物理世界時(shí)，現(xiàn)實(shí)很快就給他上了一堂殘酷的課。在早期的真機(jī)部署嘗試中，團(tuán)隊(duì)面臨著極其致命的虛實(shí)遷移難題。

「最大的問(wèn)題在于，我們?cè)谔摂M空間或者模擬器中訓(xùn)練出的一個(gè)非常出色的導(dǎo)航模型，是無(wú)法直接部署到真機(jī)上的。」黃巖指出了其中的殘酷現(xiàn)實(shí)。他強(qiáng)調(diào)模擬器數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異非常大：在模擬器里有 80% 的準(zhǔn)確率，拿到真機(jī)上可能 10% 都沒(méi)有，這種極端的落差是極有可能發(fā)生的。

模擬器數(shù)據(jù)與真實(shí)數(shù)據(jù)之間巨大的分布差異，讓黃巖深刻體會(huì)到物理世界的不可預(yù)測(cè)性。在這場(chǎng)從零開(kāi)始的探索中，他沒(méi)有退縮，反而被激起了技術(shù)狂熱者的斗志。他明白，要想真正馴服機(jī)器人的物理軀體，就必須拋棄對(duì)仿真數(shù)據(jù)的完全依賴，重新回到真實(shí)世界中，在底層架構(gòu)上尋找提升真實(shí)數(shù)據(jù)利用率的解法。這也為后來(lái)中科第五紀(jì)一系列完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的架構(gòu)創(chuàng)新奠定了基調(diào)。

全棧技術(shù)硬核「實(shí)干派」代表

對(duì)抗算力與數(shù)據(jù)的狂熱

在當(dāng)下的具身智能賽道，將大語(yǔ)言模型領(lǐng)域的 Scaling Law 平移過(guò)來(lái)，似乎成了一種行業(yè)共識(shí)。許多初創(chuàng)企業(yè)和頭部大廠試圖通過(guò)搭建龐大的數(shù)據(jù)工廠，用暴力堆疊算力和海量數(shù)據(jù)的方式來(lái)催熟具身大腦。

面對(duì)這種對(duì)算力與數(shù)據(jù)的狂熱迷信，黃巖保持著冷靜的審視。

實(shí)際上，早在行業(yè)沉迷于數(shù)據(jù)堆疊的初期，黃巖就前瞻性地預(yù)測(cè)到了這條路徑的極大挑戰(zhàn)。但他所堅(jiān)持的這條「極少樣本」和「新架構(gòu)」的冷門路線，在早期也曾面臨過(guò)外界的質(zhì)疑。

黃巖在采訪中回憶了那段時(shí)期：「當(dāng)時(shí)的環(huán)境下，大家都在關(guān)注具身大模型的通用性和泛化性，甚至宣稱要在兩三年之內(nèi)就要訓(xùn)練出一個(gè)能夠進(jìn)入家庭的具身大模型，走這種高舉高打的路線。」

面對(duì)這種狂熱的行業(yè)情緒，黃巖從純粹技術(shù)的角度給出了冷靜的判斷。他認(rèn)為短期內(nèi)真正做出一個(gè)通用的具身大模型并進(jìn)入家庭是非常具有挑戰(zhàn)性的，而且時(shí)間很可能遠(yuǎn)遠(yuǎn)不夠。

「我們經(jīng)過(guò)很長(zhǎng)時(shí)間的討論，最終選擇了一個(gè)相對(duì)務(wù)實(shí)的路線。」黃巖表示。他帶領(lǐng)團(tuán)隊(duì)果斷放棄了追逐短期的通用神話，轉(zhuǎn)而聚焦真實(shí)的工業(yè)場(chǎng)景，有針對(duì)性地去解決樣本量少、可靠性低等最核心的產(chǎn)業(yè)痛點(diǎn)。黃巖在采訪中給出了自己的判斷：「想要實(shí)現(xiàn)具身領(lǐng)域的 Scaling Law，它的數(shù)據(jù)量一定要提升得很快，數(shù)量要非常非常多。只有在數(shù)據(jù)量非常充足的情況下，我們?cè)偃ヌ嵘懔蛥?shù)量才是有意義的。」他認(rèn)為，以目前物理世界交互數(shù)據(jù)的積累速度，一味地提升參數(shù)量，有可能需要很長(zhǎng)時(shí)間才能夠達(dá)到引發(fā)智能涌現(xiàn)的時(shí)間點(diǎn)。

行業(yè)首創(chuàng)超少樣本大模型，拒絕暴力堆疊

作為一位務(wù)實(shí)的全棧技術(shù)代表，他拒絕等待虛無(wú)縹緲的海量數(shù)據(jù)涌現(xiàn)。基于對(duì)數(shù)據(jù)瓶頸的精準(zhǔn)預(yù)判，黃巖與中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)潛心打磨，基于更早之前開(kāi)發(fā)的BridgeVLA推出了行業(yè)首個(gè)超少樣本大模型FAM 系列

這堪稱一次極客美學(xué)的底層重構(gòu)，也是少有的、完全圍繞解決具身智能場(chǎng)景痛點(diǎn)而設(shè)計(jì)的專屬架構(gòu)。

「當(dāng)我們確實(shí)有海量數(shù)據(jù)時(shí)，直接利用數(shù)據(jù)進(jìn)行暴力擬合可能是最簡(jiǎn)單、短平快的方法。」黃巖一語(yǔ)道破了當(dāng)前主流視覺(jué)-語(yǔ)言-動(dòng)作（VLA）架構(gòu)的痛點(diǎn)：「但現(xiàn)有的架構(gòu)丟掉了太多的高維空間結(jié)構(gòu)信息。」

他向我們剖析了傳統(tǒng)架構(gòu)中那個(gè)致命的維度瓶頸：模型的輸入往往是二維甚至三維的視覺(jué)信息，輸出也是三維的動(dòng)作，但在模型內(nèi)部處理時(shí)，卻被強(qiáng)行壓縮成了一維的表征。

「在這個(gè)壓縮過(guò)程中，大量與空間結(jié)構(gòu)緊密相關(guān)的信息被丟掉了，保留下來(lái)的多是偏向語(yǔ)義層面的內(nèi)容，例如物體名稱、屬性、顏色等。」黃巖解釋道，「這些語(yǔ)義信息對(duì)精確的動(dòng)作生成雖然有貢獻(xiàn)，但不會(huì)特別明顯。」

為了找回丟失的三維空間，解決工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)匱乏的難題，中科第五紀(jì)與中科院自動(dòng)化所團(tuán)隊(duì)在 FAM 模型中引入了全局與局部協(xié)同的精妙設(shè)計(jì)。

BridgeVLA 是一種新型 3D VLA 模型，它在統(tǒng)一的 2D 圖像空間內(nèi)對(duì)齊輸入和輸出。它使用 2D 熱力圖在對(duì)象定位任務(wù)上進(jìn)行預(yù)訓(xùn)練，并在 3D 操作的動(dòng)作預(yù)測(cè)任務(wù)上進(jìn)行微調(diào)。在仿真和真實(shí)世界中的實(shí)驗(yàn)結(jié)果表明，它能夠高效且有效地學(xué)習(xí) 3D 操作。arXiv:2506.07961

黃巖揭示了其中的核心原理：「我們主要是把模型中間層，從一維特征拉高到三維的熱力圖，讓整個(gè)空間結(jié)構(gòu)建模能力能夠在模型中間流動(dòng)起來(lái)。」這種無(wú)損傳遞空間信息的設(shè)計(jì)，讓模型從很大程度上擺脫了對(duì)龐大數(shù)據(jù)量死記硬背的依賴。

同時(shí)，這種專為具身場(chǎng)景設(shè)計(jì)的架構(gòu)，賦予了中科第五紀(jì)的具身機(jī)器人一種「既見(jiàn)森林，又見(jiàn)樹(shù)木」的罕見(jiàn)認(rèn)知能力。它不僅能夠通過(guò)三維熱力圖進(jìn)行全局的空間結(jié)構(gòu)建模（見(jiàn)森林），還能通過(guò)獨(dú)創(chuàng)的局部注意力機(jī)制，精準(zhǔn)鎖定料箱把手、零件邊緣等關(guān)鍵操作點(diǎn)（見(jiàn)樹(shù)木）。

「既見(jiàn)森林，又見(jiàn)樹(shù)木」的比喻源自黃巖參與的一篇 CVPR 2017 論文。

這種全局與局部的無(wú)縫協(xié)同，加上對(duì)真實(shí)場(chǎng)景痛點(diǎn)的定向攻堅(jiān)，造就了中科第五紀(jì)在全球范圍內(nèi)極具統(tǒng)治力的小樣本技術(shù)表現(xiàn)。

在真實(shí)的工業(yè)落地中，這種架構(gòu)創(chuàng)新轉(zhuǎn)化為了一種強(qiáng)悍的實(shí)戰(zhàn)能力：面對(duì)全新的任務(wù)，F(xiàn)AM 模型在極限情況下僅需 3 到 5 條真機(jī)演示數(shù)據(jù)，即可完成高可靠性的部署，基礎(chǔ)任務(wù)成功率近 97%。

中科第五紀(jì)用這種冠絕行業(yè)的數(shù)據(jù)利用效率，定向擊穿了長(zhǎng)期困擾具身智能落地的「數(shù)據(jù)荒」壁壘。

同時(shí)，模型的泛化能力也能得到極大提升。即便面對(duì)光照變化、復(fù)雜背景、干擾物體等極具挑戰(zhàn)性的泛化場(chǎng)景，該模型依然能夠保持高度的穩(wěn)定性。這種極低成本的部署能力，正是打通工業(yè)場(chǎng)景商業(yè)閉環(huán)的關(guān)鍵所在。

利用世界模型，做具身安全的守衛(wèi)者

如果在操作層面的創(chuàng)新是為了「能干活」，那么將世界模型引入執(zhí)行端，則是黃巖為了「安全干活」而上的一道保險(xiǎn)。

對(duì)于想要跑通商業(yè)閉環(huán)的企業(yè)而言，工業(yè)安全是一個(gè)無(wú)法回避的紅線。黃巖在采訪中列舉了非常具體的落地痛點(diǎn)：「例如在做產(chǎn)品出廠前的質(zhì)檢時(shí)，有時(shí)操作用的力比較大，把東西拉壞了，或者是操作半徑太大，碰到了周邊其他物體，這些都會(huì)產(chǎn)生潛在的安全隱患。」

他最初的出發(fā)點(diǎn)非常直接：「利用世界模型預(yù)見(jiàn)未來(lái)的能力，讓大模型在感知到未來(lái)的情況下產(chǎn)生更準(zhǔn)確的行為。」

然而，讓機(jī)器人真正學(xué)會(huì)預(yù)演未來(lái)面臨著一條巨大的鴻溝：視頻生成模型看懂的是像素，機(jī)器人輸出的動(dòng)作是坐標(biāo)系里的位姿。為了跨越這道墻，中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)推出了BridgeV2W 世界模型，其中引入了極具巧思的本體掩碼（Embodiment Mask）設(shè)計(jì)。

BridgeV2W 流程概述。使用 URDF 和相機(jī)參數(shù)將動(dòng)作投影到像素空間掩碼中。初始圖像和掩碼序列由 VAE 編碼，掩碼特征通過(guò) ControlNet 分支注入到 DiT 主干中。該模型生成與動(dòng)作一致的視頻，訓(xùn)練時(shí)采用擴(kuò)散、動(dòng)態(tài)一致性和基于流的目標(biāo)函數(shù)。arXiv:2602.03793

黃巖解釋道:「我們主要是想規(guī)避掉直接從坐標(biāo)點(diǎn)映射到視頻像素的困難，本質(zhì)上是把不同的行為序列，直接轉(zhuǎn)化到像素的層面上去。」通過(guò)將抽象的坐標(biāo)實(shí)時(shí)渲染成二維圖像上的動(dòng)作剪影，預(yù)訓(xùn)練的視頻大模型瞬間就能看懂機(jī)器人的動(dòng)作意圖，從而真正打通視頻生成與具身世界模型之間的橋梁。

BridgeV2W 在 DROID 數(shù)據(jù)集上的單臂操作預(yù)測(cè)。尤其在「未見(jiàn)視角」測(cè)試中，對(duì)比方法常出現(xiàn)畫面崩塌、肢體錯(cuò)位，而 BridgeV2W 依然生成物理合理、視覺(jué)連貫的未來(lái)視頻，充分驗(yàn)證了其視角魯棒性。在「未見(jiàn)場(chǎng)景」（全新桌面布局、背景）下，泛化能力同樣出色。

探索具身強(qiáng)化學(xué)習(xí)前沿的架構(gòu)師

除了多模態(tài)感知與世界模型，黃巖還將對(duì)技術(shù)的追求延伸到了強(qiáng)化學(xué)習(xí)領(lǐng)域。為了進(jìn)一步提升跨場(chǎng)景的泛化能力并降低交付成本，團(tuán)隊(duì)開(kāi)展了具身強(qiáng)化學(xué)習(xí)后訓(xùn)練，并完成了一項(xiàng)名為E-TTS的「具身測(cè)試時(shí)拓展」前期工作。

現(xiàn)有的 VLA 強(qiáng)化學(xué)習(xí)方法通常先生成中間推理，再生成動(dòng)作。這種方式往往只強(qiáng)化學(xué)習(xí)動(dòng)作空間，卻忽略了推理質(zhì)量對(duì)動(dòng)作的決定性影響。

E-TTS 框架通過(guò)三個(gè)核心機(jī)制解決了這一痛點(diǎn)：首先是推理與動(dòng)作的聯(lián)合擴(kuò)展，同時(shí)擴(kuò)展推理軌跡和動(dòng)作候選；其次是歷史感知的閉環(huán)驗(yàn)證，結(jié)合過(guò)去的歷史推理與動(dòng)作對(duì)以捕捉長(zhǎng)程依賴；最后是自適應(yīng)在線選擇策略，通過(guò)動(dòng)態(tài)分配計(jì)算資源避免陷入局部最優(yōu)。

這項(xiàng)工作展現(xiàn)出了極高的工程實(shí)用價(jià)值。它不需要像傳統(tǒng)的 PPO 或 DPO 算法那樣更新模型權(quán)重，也無(wú)需收集額外的專家數(shù)據(jù)或進(jìn)行微調(diào)，極大地降低了落地門檻。在這一框架中，驗(yàn)證器扮演了過(guò)程獎(jiǎng)勵(lì)模型的角色，在每一步對(duì)推理和動(dòng)作的質(zhì)量進(jìn)行打分，實(shí)現(xiàn)方式更加輕量、靈活。

更為重要的是，這項(xiàng)研究向全行業(yè)證明了一個(gè)極具啟示性的結(jié)論：在機(jī)器人領(lǐng)域，單純擴(kuò)大模型規(guī)模或數(shù)據(jù)集，不如在推理時(shí)引入「慢思考」機(jī)制有效。這為計(jì)算資源受限場(chǎng)景下的機(jī)器人智能提升開(kāi)辟了一條全新的路徑。

這種不卷算力、專注數(shù)據(jù)利用率，且完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的全棧式架構(gòu)重構(gòu)，正是黃巖及中科第五紀(jì)能夠在商業(yè)化大考中脫穎而出的核心底牌。

探尋本源，將「人類認(rèn)知」刻入機(jī)器大腦

撥開(kāi) FAM 模型、BridgeV2W 世界模型以及 E-TTS 強(qiáng)化學(xué)習(xí)框架的技術(shù)外衣，黃巖及其團(tuán)隊(duì)所有架構(gòu)創(chuàng)新的深層驅(qū)動(dòng)力，源于一種試圖在硅基芯片上復(fù)現(xiàn)碳基智慧的極客執(zhí)念。

在學(xué)術(shù)界，黃巖出版過(guò)一本探討深度認(rèn)知網(wǎng)絡(luò)的專著《Deep Cognitive Networks》。這部著作的核心思路，就是通過(guò)模擬人類的認(rèn)知機(jī)制來(lái)增強(qiáng)深度學(xué)習(xí)的能力，相關(guān)成果還獲得了 2024 年北京市自然科學(xué)一等獎(jiǎng)。

這種對(duì)人類認(rèn)知機(jī)制的深度拆解，構(gòu)成了中科第五紀(jì)與中科院自動(dòng)化所合作研發(fā)的眾多技術(shù)創(chuàng)新的理論基石。

黃巖向機(jī)器之心總結(jié)了他十余年研究的一條隱形主線：「我們其實(shí)就是在關(guān)注人腦的注意、記憶、推理、決策等認(rèn)知機(jī)制，去實(shí)現(xiàn)它的信息選擇性過(guò)濾、知識(shí)存儲(chǔ)復(fù)用、動(dòng)態(tài)推理以及主動(dòng)決策等認(rèn)知功能。」

無(wú)論是 FAM 模型像人類雙眼一樣進(jìn)行局部注意力聚焦，還是 BridgeV2W 世界模型像人類大腦一樣對(duì)未來(lái)物理操作進(jìn)行安全預(yù)判，亦或是 E-TTS 框架中引入的「慢思考」推理機(jī)制，其核心機(jī)制都在嘗試建立一套符合具身認(rèn)知規(guī)律的智能系統(tǒng)

既然這套模擬人類認(rèn)知的「大腦框架」已有雛形，它亟需海量的數(shù)據(jù)燃料來(lái)啟動(dòng)運(yùn)轉(zhuǎn)。真實(shí)物理交互數(shù)據(jù)極其昂貴，但黃巖很早就將目光投向了另一座巨大的寶庫(kù)：互聯(lián)網(wǎng)上海量的人類操作視頻。

讓機(jī)器人直接看懂人類的教學(xué)視頻并學(xué)會(huì)操作，是具身智能領(lǐng)域公認(rèn)的圣杯之一。這其中的阻力顯而易見(jiàn)。

「網(wǎng)絡(luò)上其實(shí)是有很多操作視頻的，但是它們沒(méi)有動(dòng)作標(biāo)注。」黃巖指出了直接利用這些數(shù)據(jù)的最大痛點(diǎn)，「如果我們直接讓人工做動(dòng)作標(biāo)注，其實(shí)非常困難。」

為了繞開(kāi)繁瑣的人工標(biāo)注環(huán)節(jié)，真正將這些沉睡的視頻資產(chǎn)激活，中科第五紀(jì)聯(lián)合中科院自動(dòng)化所提出了一種名為EC-Flow的流預(yù)測(cè)框架。這項(xiàng)極具前瞻性的研究成果已被計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 ICCV 2025 接收。

EC-Flow，即以本體（Embodiment）為中心的流預(yù)測(cè)網(wǎng)絡(luò)架構(gòu)。分支（a）：本體流的預(yù)測(cè)分支（b）：目標(biāo)圖像的預(yù)測(cè)，該預(yù)測(cè)作為輔助任務(wù)，用于將流與對(duì)象交互和語(yǔ)言指令對(duì)齊。arXiv:2507.06224

黃巖解釋了這套方案精妙的解題思路：「我們嘗試去關(guān)注它中間層面的運(yùn)動(dòng)情況，例如圖像中機(jī)械臂關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡。拿到這些運(yùn)動(dòng)軌跡之后，再通過(guò)機(jī)器人本體的配置文件，解算出它的精確行為。」

在真實(shí)世界的開(kāi)冰箱任務(wù)上的流預(yù)測(cè)和實(shí)際任務(wù)執(zhí)行示例。

通過(guò)這種方式，機(jī)器人仿佛擁有了「看視頻自學(xué)」的能力。在面臨被遮擋物體、可變形物體操作等高難度任務(wù)時(shí)，其成功率較當(dāng)時(shí)的最佳方案分別提升了 62% 和 45%。

Meta-World 基準(zhǔn)測(cè)試上的模擬結(jié)果。

在真實(shí)世界操作任務(wù)上的結(jié)果。

這項(xiàng)技術(shù)的巨大潛力也引起了國(guó)際頂尖學(xué)者的關(guān)注，斯坦福大學(xué)李飛飛團(tuán)隊(duì)在近期發(fā)布的 Dream2Flow 研究中便引用了這篇論文。

Dream2Flow 論文中引用 EC-Flow 的內(nèi)容。

除了挖掘現(xiàn)有視頻，中科第五紀(jì)還聯(lián)合中科院自動(dòng)化所將這種提升數(shù)據(jù)利用率的巧思應(yīng)用到了數(shù)據(jù)合成領(lǐng)域，研發(fā)了一鍵生成多視角數(shù)據(jù)的技術(shù)。

在真實(shí)場(chǎng)景的采集中，多攝像頭的布置成本高昂，且單視角往往容易面臨視覺(jué)遮擋的風(fēng)險(xiǎn)。黃巖指出，這項(xiàng)具身跨視角數(shù)據(jù)增廣方法的核心優(yōu)勢(shì)在于，能夠基于單一視角的演示數(shù)據(jù)，自動(dòng)生成多角度且高保真的機(jī)器人訓(xùn)練數(shù)據(jù)。這套方法結(jié)合了動(dòng)作重定向與生成式視頻修復(fù)技術(shù)，通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn)，整個(gè)過(guò)程完全無(wú)需人工標(biāo)注。使用該方法生成的數(shù)據(jù)進(jìn)行訓(xùn)練后，模型在已知視角和全新視角下的任務(wù)成功率最高分別提升了 18.3% 和 25.8%。

在這個(gè)以落地變現(xiàn)為主旋律的 2026 年，黃巖依然保留著對(duì)技術(shù)本源的純粹好奇。他在追求務(wù)實(shí)的商業(yè)戰(zhàn)場(chǎng)上，小心翼翼地守護(hù)著那份屬于極客的終極浪漫。

雙線作戰(zhàn)，迎接 2026 年的商業(yè)大考

如果說(shuō)在頂會(huì)發(fā)論文、探尋認(rèn)知機(jī)理是屬于極客的終極浪漫，那么 2026 年具身智能賽道的商業(yè)化現(xiàn)實(shí)，則是一場(chǎng)冷酷的生存淘汰賽。

「去年，投資人更傾向通用的具身智能敘事。現(xiàn)在大家更看重能不能先扎進(jìn)一個(gè)具體的場(chǎng)景里，把活干好。」正如中科第五紀(jì)創(chuàng)始人兼 CEO 劉年豐所觀察到的那樣，一級(jí)市場(chǎng)對(duì)機(jī)器人的認(rèn)知已經(jīng)變得非常務(wù)實(shí)。投資人與客戶已經(jīng)略過(guò)了那些花哨的演示視頻，他們當(dāng)前只看重一點(diǎn)：機(jī)器人在真實(shí)場(chǎng)景中能否創(chuàng)造真正的復(fù)購(gòu)率

在這場(chǎng)務(wù)實(shí)的商業(yè)大考中，中科第五紀(jì)交出了一份極具說(shuō)服力的答卷。2026 年初，公司在短短一個(gè)月內(nèi)接連完成規(guī)模達(dá)數(shù)億元的 Pre-A 及 Pre-A+ 輪融資，這正是對(duì)中科第五紀(jì)這種從真實(shí)工業(yè)痛點(diǎn)出發(fā)、腳踏實(shí)地的技術(shù)路線最直接的背書。

資本的青睞與堅(jiān)實(shí)的技術(shù)壁壘并非憑空出現(xiàn)。中科第五紀(jì)背后的核心研發(fā)團(tuán)隊(duì)來(lái)自中科院自動(dòng)化所和清華大學(xué)，是一支擁有長(zhǎng)達(dá)十余年技術(shù)蟄伏的科研團(tuán)隊(duì)。

回顧團(tuán)隊(duì)的發(fā)展歷程，他們不僅是國(guó)內(nèi)最早投入多模態(tài)研發(fā)的先驅(qū)之一，更在學(xué)術(shù)與工程的交匯處刻下了眾多開(kāi)創(chuàng)性的里程碑。早在 2013 年他們便發(fā)表了第一篇視覺(jué)-語(yǔ)言理解領(lǐng)域的 ICCV 論文；2016 年將注意力機(jī)制引入多模態(tài)匹配任務(wù)并達(dá)到國(guó)際領(lǐng)先；2019 年率先投入視覺(jué)-語(yǔ)言-導(dǎo)航（VLN）模型的研發(fā)，并于 2023 年在全世界率先實(shí)現(xiàn)了該模型的真機(jī)部署。

中科第五紀(jì)的發(fā)展歷程。

在實(shí)戰(zhàn)對(duì)抗中，從 2016 年斬獲 IROS 機(jī)械手抓取與操作冠軍，到 2024 年研發(fā)出業(yè)內(nèi)首個(gè)世界模型的 VLA 大模型，再到 2025 年接連奪得 CVPR 通用操作泛化性挑戰(zhàn)賽冠軍與 ICRA 機(jī)器人虛實(shí)遷移冠軍，這支團(tuán)隊(duì)在具身智能的演進(jìn)之路上始終展現(xiàn)著硬核的集體作戰(zhàn)能力。

在這樣一支兼具學(xué)術(shù)深度與工程落地能力的隊(duì)伍中，在這個(gè)要求嚴(yán)苛的商業(yè)考場(chǎng)上，黃巖必須在兩種身份之間保持精準(zhǔn)的平衡。

學(xué)術(shù)界，他需要帶領(lǐng)學(xué)生探索前沿，哪怕面臨極高的失敗率；在工業(yè)界，他需要從實(shí)際場(chǎng)景中提煉關(guān)鍵科學(xué)問(wèn)題，然后相應(yīng)進(jìn)行模型算法的研發(fā)。

為了將領(lǐng)先的技術(shù)壁壘轉(zhuǎn)化為真實(shí)的產(chǎn)業(yè)生產(chǎn)力，中科第五紀(jì)構(gòu)建了從底層架構(gòu)到軟硬協(xié)同的完整交付能力，面向客戶直接交付具有通用泛化能力的具身大腦和具身機(jī)器人。

在硬件實(shí)體層面，團(tuán)隊(duì)推出了自研的輕量化輪式具身機(jī)器人。這款身高 187 cm 的機(jī)器人全身具備 28 個(gè)自由度，其仿人形手臂集高負(fù)載與高精度力控于一身，具備亞毫米級(jí)的裝配與作業(yè)能力，能夠滿足全天候的連續(xù)作業(yè)需求。

在生態(tài)賦能層面，中科第五紀(jì)正在以具身大腦供應(yīng)商的身份，向更為廣闊的千行百業(yè)滲透。目前，該公司已陸續(xù)與多家知名大型央企展開(kāi)合作。

黃巖對(duì)這種商業(yè)落地策略有著清晰的定位：「具身智能的真正壁壘在于大腦的通用性與泛化能力。我們通過(guò)提供統(tǒng)一的模型大腦來(lái)賦能各式各樣的硬件本體，這樣既能讓機(jī)器人更快地進(jìn)入真實(shí)的作業(yè)場(chǎng)景，也能利用規(guī)模化的出貨來(lái)反哺我們的數(shù)據(jù)體系。」

伴隨著不斷擴(kuò)展的商業(yè)版圖和過(guò)硬的落地能力，中科第五紀(jì)正向著「讓百萬(wàn)機(jī)器人服務(wù)于人類」的愿景穩(wěn)步邁進(jìn)。

結(jié)語(yǔ)

采訪臨近結(jié)束時(shí)，我們的話題回到了那個(gè)布滿雜物、光線變幻莫測(cè)的真實(shí)產(chǎn)線。

當(dāng)行業(yè)客戶們拋出那個(gè)頻繁被提出的「適應(yīng)新場(chǎng)景需要多久」的嚴(yán)苛問(wèn)題時(shí)，中科第五紀(jì)的機(jī)器人們已經(jīng)做好了準(zhǔn)備。它們不需要在模擬器里跑上幾萬(wàn)次，也不需要依賴堆積如山的服務(wù)器集群去強(qiáng)行記住每一個(gè)像素的改變。只需人類工程師帶著它們?cè)诂F(xiàn)場(chǎng)做 3 到 5 次示范，它們就能憑借著內(nèi)部流動(dòng)的空間熱力圖，瞬間領(lǐng)悟操作的物理真諦。

這份底氣，正是中科第五紀(jì)和中科院自動(dòng)化所團(tuán)隊(duì)用 13 年的技術(shù)蟄伏換來(lái)的。

在這個(gè)算力焦慮蔓延的時(shí)代，這位年輕的技術(shù)狂熱者與實(shí)干家證明了一件事：想要馴服龐大復(fù)雜的物理世界，靠的絕對(duì)不能是盲目的算力堆疊。只有懷揣著對(duì)底層認(rèn)知的敬畏，在每一次代碼重構(gòu)中將數(shù)據(jù)的利用率推向極致，具身智能的齒輪才能真正與人類社會(huì)的工業(yè)齒輪完美咬合。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.