337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

專訪中科第五紀(jì)黃巖:在具身智能的狂熱中,做一位技術(shù)實(shí)干家

0
分享至



編輯|Panda

2026 年的春天,具身智能賽道迎來(lái)了前所未有的狂熱浪潮,短短兩個(gè)月內(nèi)更是已經(jīng)實(shí)現(xiàn)了全行業(yè)近 150 億元的驚人融資。

當(dāng)無(wú)數(shù)創(chuàng)業(yè)者奔走于各大投資機(jī)構(gòu)的會(huì)議室大談通用智能的宏大敘事時(shí),也有人可能正待在實(shí)驗(yàn)室里,與代碼和硬件構(gòu)成的機(jī)器人死磕。

黃巖就是其中之一。在堆滿線纜和測(cè)試道具的實(shí)驗(yàn)臺(tái)前,他和學(xué)生為了弄清機(jī)械臂在抓取復(fù)雜零件時(shí)為何總是出現(xiàn)微小的物理偏差,常常一待就是十幾個(gè)小時(shí)。他們會(huì)盯著屏幕上動(dòng)態(tài)刷新的三維熱力圖,反復(fù)拆解并重構(gòu)底層的感知代碼,直到那條機(jī)械手臂在真實(shí)的物理空間中完成一次精準(zhǔn)貼合。

黃巖擁有兩個(gè)截然不同卻又緊密咬合的身份。在學(xué)術(shù)界,他是中科院自動(dòng)化所的研究員與博士生導(dǎo)師,在各大國(guó)際計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議中擔(dān)任領(lǐng)域主席。在工業(yè)界,他兼職具身智能新銳企業(yè)中科第五紀(jì)的青年首席科學(xué)家,也是一位深度參與商業(yè)落地的技術(shù)實(shí)干派。

更為關(guān)鍵的是,作為具身智能全棧技術(shù)的代表人物之一,他的技術(shù)背景完整覆蓋了多模態(tài)感認(rèn)知技術(shù)、具身世界模型技術(shù)與強(qiáng)化學(xué)習(xí)技術(shù)。他所主導(dǎo)的模型創(chuàng)新,深深扎根于真實(shí)的工業(yè)場(chǎng)景需求,致力于解決數(shù)據(jù)短缺并極致提升數(shù)據(jù)的利用率。他試圖在這個(gè)喧囂的 2026 年,用一種近乎極客的狂熱與克制,為復(fù)雜的 AI 算法尋找一個(gè)能在真實(shí)物理世界中穩(wěn)健運(yùn)行的軀體。



近日,機(jī)器之心獨(dú)家專訪了這位已有超 1.2 萬(wàn)引用量的多模態(tài)和具身智能研究者。在這場(chǎng)專訪中,黃巖拋開(kāi)熱鬧的行業(yè)表象,與我們分享了他和團(tuán)隊(duì)在具身大模型領(lǐng)域的探索歷程 —— 當(dāng)行業(yè)內(nèi)都在談?wù)摂?shù)據(jù)量、算力問(wèn)題時(shí),他們另辟蹊徑,從真實(shí)場(chǎng)景痛點(diǎn)出發(fā),展開(kāi)了全棧式架構(gòu)重構(gòu),通過(guò)一場(chǎng)技術(shù)實(shí)戰(zhàn),解決了行業(yè)內(nèi)數(shù)據(jù)利用效率瓶頸。

前瞻性的技術(shù)直覺(jué)

成就國(guó)內(nèi)具身智能「拓疆者」

把時(shí)間指針撥回 2013 年,深度學(xué)習(xí)剛剛開(kāi)始在計(jì)算機(jī)視覺(jué)領(lǐng)域撕開(kāi)一道口子。當(dāng)時(shí)的學(xué)術(shù)界主流依然在追逐純文本的自然語(yǔ)言處理,或者純粹的圖像識(shí)別技術(shù)。

黃巖則選擇了一條跨界的冷門路線:將視覺(jué)與語(yǔ)言進(jìn)行結(jié)合

「當(dāng)時(shí)之所以選擇視覺(jué)-語(yǔ)言,本質(zhì)上還是基于對(duì)這個(gè)技術(shù)的個(gè)人喜好。」黃巖在采訪中向機(jī)器之心回憶起當(dāng)初的決定,「我覺(jué)得這個(gè)任務(wù)的想象空間會(huì)比較大一些,它不單單是純粹去理解語(yǔ)言,或者僅僅去關(guān)注視覺(jué)的一些內(nèi)容。」

這種前瞻性的技術(shù)直覺(jué),為他日后進(jìn)軍具身智能埋下了伏筆。

隨著多模態(tài)技術(shù)的飛速發(fā)展,到了 2019 年,純軟件層面的算法研究逐漸開(kāi)始走向大一統(tǒng)的狀態(tài)。為了打破常規(guī)的算力堆疊,黃巖在這一年已經(jīng)開(kāi)始研究和創(chuàng)新強(qiáng)化學(xué)習(xí)算法(此前曾在圍棋 AI AlphaGo 中大放異彩),并在語(yǔ)言驅(qū)動(dòng)的視頻行為定位任務(wù)上取得了當(dāng)時(shí)的國(guó)際領(lǐng)先精度。

通過(guò)強(qiáng)化學(xué)習(xí),他們成功增強(qiáng)了視覺(jué)-語(yǔ)言模型的類人時(shí)空選擇性注意等認(rèn)知機(jī)制。模型只需要?jiǎng)討B(tài)跳轉(zhuǎn) 5 到 8 次即可快速把握視頻中的關(guān)鍵行為信息,完全不需要耗時(shí)耗力地去提取時(shí)空目標(biāo)框,這讓執(zhí)行效率顯著提升了 7 倍。這項(xiàng)開(kāi)創(chuàng)性的工作也成功入選為計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 的 Oral 論文,躋身前 3% 的頂尖行列。



這篇 CVPR 2019 論文開(kāi)創(chuàng)性地研究了「通過(guò)句子查詢來(lái)定位活動(dòng)」的問(wèn)題,并提出了一種語(yǔ)義強(qiáng)化學(xué)習(xí)模型并取得了 SOTA 成績(jī)。

這種強(qiáng)化學(xué)習(xí)基因,在多模態(tài)大模型時(shí)代結(jié)出了新的果實(shí)。針對(duì)當(dāng)前多模態(tài)大語(yǔ)言模型(MLLM)在與人類偏好對(duì)齊方面的顯著短板,中科第五紀(jì)團(tuán)隊(duì)內(nèi)多名成員深度參與,推出了代表性成果 MM-RLHF。他們不僅構(gòu)建了當(dāng)時(shí)規(guī)模最大、覆蓋場(chǎng)景最廣的多模態(tài)偏好數(shù)據(jù)集,還提出了一種能夠解釋為何回答更好或更差的新型獎(jiǎng)勵(lì)模型架構(gòu),并輔以 MM-DPO 算法,成功規(guī)避了傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定和超參數(shù)敏感的問(wèn)題。這是多模態(tài)領(lǐng)域首個(gè)系統(tǒng)性將強(qiáng)化學(xué)習(xí)技術(shù)擴(kuò)展到全方位人類偏好對(duì)齊的工作,標(biāo)志著大模型從能力構(gòu)建階段邁向了價(jià)值對(duì)齊階段。

然而,無(wú)論是多模態(tài)感知還是價(jià)值對(duì)齊,如果不與真實(shí)的物理世界發(fā)生物理接觸,算法的潛力終將受限。黃巖意識(shí)到,需要為這些算法裝上物理軀殼,所以他最早選擇把視覺(jué)-語(yǔ)言算法直接用到機(jī)器人導(dǎo)航上。

當(dāng)從安靜的服務(wù)器云端進(jìn)入布滿雜物與摩擦力的真實(shí)物理世界時(shí),現(xiàn)實(shí)很快就給他上了一堂殘酷的課。在早期的真機(jī)部署嘗試中,團(tuán)隊(duì)面臨著極其致命的虛實(shí)遷移難題。

「最大的問(wèn)題在于,我們?cè)谔摂M空間或者模擬器中訓(xùn)練出的一個(gè)非常出色的導(dǎo)航模型,是無(wú)法直接部署到真機(jī)上的。」黃巖指出了其中的殘酷現(xiàn)實(shí)。他強(qiáng)調(diào)模擬器數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異非常大:在模擬器里有 80% 的準(zhǔn)確率,拿到真機(jī)上可能 10% 都沒(méi)有,這種極端的落差是極有可能發(fā)生的。

模擬器數(shù)據(jù)與真實(shí)數(shù)據(jù)之間巨大的分布差異,讓黃巖深刻體會(huì)到物理世界的不可預(yù)測(cè)性。在這場(chǎng)從零開(kāi)始的探索中,他沒(méi)有退縮,反而被激起了技術(shù)狂熱者的斗志。他明白,要想真正馴服機(jī)器人的物理軀體,就必須拋棄對(duì)仿真數(shù)據(jù)的完全依賴,重新回到真實(shí)世界中,在底層架構(gòu)上尋找提升真實(shí)數(shù)據(jù)利用率的解法。這也為后來(lái)中科第五紀(jì)一系列完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的架構(gòu)創(chuàng)新奠定了基調(diào)。

全棧技術(shù)硬核「實(shí)干派」代表

對(duì)抗算力與數(shù)據(jù)的狂熱

在當(dāng)下的具身智能賽道,將大語(yǔ)言模型領(lǐng)域的 Scaling Law 平移過(guò)來(lái),似乎成了一種行業(yè)共識(shí)。許多初創(chuàng)企業(yè)和頭部大廠試圖通過(guò)搭建龐大的數(shù)據(jù)工廠,用暴力堆疊算力和海量數(shù)據(jù)的方式來(lái)催熟具身大腦。

面對(duì)這種對(duì)算力與數(shù)據(jù)的狂熱迷信,黃巖保持著冷靜的審視。

實(shí)際上,早在行業(yè)沉迷于數(shù)據(jù)堆疊的初期,黃巖就前瞻性地預(yù)測(cè)到了這條路徑的極大挑戰(zhàn)。但他所堅(jiān)持的這條「極少樣本」和「新架構(gòu)」的冷門路線,在早期也曾面臨過(guò)外界的質(zhì)疑。

黃巖在采訪中回憶了那段時(shí)期:「當(dāng)時(shí)的環(huán)境下,大家都在關(guān)注具身大模型的通用性和泛化性,甚至宣稱要在兩三年之內(nèi)就要訓(xùn)練出一個(gè)能夠進(jìn)入家庭的具身大模型,走這種高舉高打的路線。」

面對(duì)這種狂熱的行業(yè)情緒,黃巖從純粹技術(shù)的角度給出了冷靜的判斷。他認(rèn)為短期內(nèi)真正做出一個(gè)通用的具身大模型并進(jìn)入家庭是非常具有挑戰(zhàn)性的,而且時(shí)間很可能遠(yuǎn)遠(yuǎn)不夠。

「我們經(jīng)過(guò)很長(zhǎng)時(shí)間的討論,最終選擇了一個(gè)相對(duì)務(wù)實(shí)的路線。」黃巖表示。他帶領(lǐng)團(tuán)隊(duì)果斷放棄了追逐短期的通用神話,轉(zhuǎn)而聚焦真實(shí)的工業(yè)場(chǎng)景,有針對(duì)性地去解決樣本量少、可靠性低等最核心的產(chǎn)業(yè)痛點(diǎn)。黃巖在采訪中給出了自己的判斷:「想要實(shí)現(xiàn)具身領(lǐng)域的 Scaling Law,它的數(shù)據(jù)量一定要提升得很快,數(shù)量要非常非常多。只有在數(shù)據(jù)量非常充足的情況下,我們?cè)偃ヌ嵘懔蛥?shù)量才是有意義的。」他認(rèn)為,以目前物理世界交互數(shù)據(jù)的積累速度,一味地提升參數(shù)量,有可能需要很長(zhǎng)時(shí)間才能夠達(dá)到引發(fā)智能涌現(xiàn)的時(shí)間點(diǎn)。

行業(yè)首創(chuàng)超少樣本大模型,拒絕暴力堆疊

作為一位務(wù)實(shí)的全棧技術(shù)代表,他拒絕等待虛無(wú)縹緲的海量數(shù)據(jù)涌現(xiàn)。基于對(duì)數(shù)據(jù)瓶頸的精準(zhǔn)預(yù)判,黃巖與中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)潛心打磨,基于更早之前開(kāi)發(fā)的BridgeVLA推出了行業(yè)首個(gè)超少樣本大模型FAM 系列



這堪稱一次極客美學(xué)的底層重構(gòu),也是少有的、完全圍繞解決具身智能場(chǎng)景痛點(diǎn)而設(shè)計(jì)的專屬架構(gòu)。

「當(dāng)我們確實(shí)有海量數(shù)據(jù)時(shí),直接利用數(shù)據(jù)進(jìn)行暴力擬合可能是最簡(jiǎn)單、短平快的方法。」黃巖一語(yǔ)道破了當(dāng)前主流視覺(jué)-語(yǔ)言-動(dòng)作(VLA)架構(gòu)的痛點(diǎn):「但現(xiàn)有的架構(gòu)丟掉了太多的高維空間結(jié)構(gòu)信息。」

他向我們剖析了傳統(tǒng)架構(gòu)中那個(gè)致命的維度瓶頸:模型的輸入往往是二維甚至三維的視覺(jué)信息,輸出也是三維的動(dòng)作,但在模型內(nèi)部處理時(shí),卻被強(qiáng)行壓縮成了一維的表征。

「在這個(gè)壓縮過(guò)程中,大量與空間結(jié)構(gòu)緊密相關(guān)的信息被丟掉了,保留下來(lái)的多是偏向語(yǔ)義層面的內(nèi)容,例如物體名稱、屬性、顏色等。」黃巖解釋道,「這些語(yǔ)義信息對(duì)精確的動(dòng)作生成雖然有貢獻(xiàn),但不會(huì)特別明顯。」

為了找回丟失的三維空間,解決工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)匱乏的難題,中科第五紀(jì)與中科院自動(dòng)化所團(tuán)隊(duì)在 FAM 模型中引入了全局與局部協(xié)同的精妙設(shè)計(jì)。



BridgeVLA 是一種新型 3D VLA 模型,它在統(tǒng)一的 2D 圖像空間內(nèi)對(duì)齊輸入和輸出。它使用 2D 熱力圖在對(duì)象定位任務(wù)上進(jìn)行預(yù)訓(xùn)練,并在 3D 操作的動(dòng)作預(yù)測(cè)任務(wù)上進(jìn)行微調(diào)。在仿真和真實(shí)世界中的實(shí)驗(yàn)結(jié)果表明,它能夠高效且有效地學(xué)習(xí) 3D 操作。arXiv:2506.07961

黃巖揭示了其中的核心原理:「我們主要是把模型中間層,從一維特征拉高到三維的熱力圖,讓整個(gè)空間結(jié)構(gòu)建模能力能夠在模型中間流動(dòng)起來(lái)。」這種無(wú)損傳遞空間信息的設(shè)計(jì),讓模型從很大程度上擺脫了對(duì)龐大數(shù)據(jù)量死記硬背的依賴。

同時(shí),這種專為具身場(chǎng)景設(shè)計(jì)的架構(gòu),賦予了中科第五紀(jì)的具身機(jī)器人一種「既見(jiàn)森林,又見(jiàn)樹(shù)木」的罕見(jiàn)認(rèn)知能力。它不僅能夠通過(guò)三維熱力圖進(jìn)行全局的空間結(jié)構(gòu)建模(見(jiàn)森林),還能通過(guò)獨(dú)創(chuàng)的局部注意力機(jī)制,精準(zhǔn)鎖定料箱把手、零件邊緣等關(guān)鍵操作點(diǎn)(見(jiàn)樹(shù)木)。



「既見(jiàn)森林,又見(jiàn)樹(shù)木」的比喻源自黃巖參與的一篇 CVPR 2017 論文。

這種全局與局部的無(wú)縫協(xié)同,加上對(duì)真實(shí)場(chǎng)景痛點(diǎn)的定向攻堅(jiān),造就了中科第五紀(jì)在全球范圍內(nèi)極具統(tǒng)治力的小樣本技術(shù)表現(xiàn)。

在真實(shí)的工業(yè)落地中,這種架構(gòu)創(chuàng)新轉(zhuǎn)化為了一種強(qiáng)悍的實(shí)戰(zhàn)能力:面對(duì)全新的任務(wù),F(xiàn)AM 模型在極限情況下僅需 3 到 5 條真機(jī)演示數(shù)據(jù),即可完成高可靠性的部署,基礎(chǔ)任務(wù)成功率近 97%。



中科第五紀(jì)用這種冠絕行業(yè)的數(shù)據(jù)利用效率,定向擊穿了長(zhǎng)期困擾具身智能落地的「數(shù)據(jù)荒」壁壘。

同時(shí),模型的泛化能力也能得到極大提升。即便面對(duì)光照變化、復(fù)雜背景、干擾物體等極具挑戰(zhàn)性的泛化場(chǎng)景,該模型依然能夠保持高度的穩(wěn)定性。這種極低成本的部署能力,正是打通工業(yè)場(chǎng)景商業(yè)閉環(huán)的關(guān)鍵所在。



利用世界模型,做具身安全的守衛(wèi)者

如果在操作層面的創(chuàng)新是為了「能干活」,那么將世界模型引入執(zhí)行端,則是黃巖為了「安全干活」而上的一道保險(xiǎn)。

對(duì)于想要跑通商業(yè)閉環(huán)的企業(yè)而言,工業(yè)安全是一個(gè)無(wú)法回避的紅線。黃巖在采訪中列舉了非常具體的落地痛點(diǎn):「例如在做產(chǎn)品出廠前的質(zhì)檢時(shí),有時(shí)操作用的力比較大,把東西拉壞了,或者是操作半徑太大,碰到了周邊其他物體,這些都會(huì)產(chǎn)生潛在的安全隱患。」

他最初的出發(fā)點(diǎn)非常直接:「利用世界模型預(yù)見(jiàn)未來(lái)的能力,讓大模型在感知到未來(lái)的情況下產(chǎn)生更準(zhǔn)確的行為。」

然而,讓機(jī)器人真正學(xué)會(huì)預(yù)演未來(lái)面臨著一條巨大的鴻溝:視頻生成模型看懂的是像素,機(jī)器人輸出的動(dòng)作是坐標(biāo)系里的位姿。為了跨越這道墻,中科第五紀(jì)聯(lián)合中科院自動(dòng)化所團(tuán)隊(duì)推出了BridgeV2W 世界模型,其中引入了極具巧思的本體掩碼(Embodiment Mask)設(shè)計(jì)。



BridgeV2W 流程概述。使用 URDF 和相機(jī)參數(shù)將動(dòng)作投影到像素空間掩碼中。初始圖像和掩碼序列由 VAE 編碼,掩碼特征通過(guò) ControlNet 分支注入到 DiT 主干中。該模型生成與動(dòng)作一致的視頻,訓(xùn)練時(shí)采用擴(kuò)散、動(dòng)態(tài)一致性和基于流的目標(biāo)函數(shù)。arXiv:2602.03793

黃巖解釋道:「我們主要是想規(guī)避掉直接從坐標(biāo)點(diǎn)映射到視頻像素的困難,本質(zhì)上是把不同的行為序列,直接轉(zhuǎn)化到像素的層面上去。」通過(guò)將抽象的坐標(biāo)實(shí)時(shí)渲染成二維圖像上的動(dòng)作剪影,預(yù)訓(xùn)練的視頻大模型瞬間就能看懂機(jī)器人的動(dòng)作意圖,從而真正打通視頻生成與具身世界模型之間的橋梁。



BridgeV2W 在 DROID 數(shù)據(jù)集上的單臂操作預(yù)測(cè)。尤其在「未見(jiàn)視角」測(cè)試中,對(duì)比方法常出現(xiàn)畫面崩塌、肢體錯(cuò)位,而 BridgeV2W 依然生成物理合理、視覺(jué)連貫的未來(lái)視頻,充分驗(yàn)證了其視角魯棒性。在「未見(jiàn)場(chǎng)景」(全新桌面布局、背景)下,泛化能力同樣出色。

探索具身強(qiáng)化學(xué)習(xí)前沿的架構(gòu)師

除了多模態(tài)感知與世界模型,黃巖還將對(duì)技術(shù)的追求延伸到了強(qiáng)化學(xué)習(xí)領(lǐng)域。為了進(jìn)一步提升跨場(chǎng)景的泛化能力并降低交付成本,團(tuán)隊(duì)開(kāi)展了具身強(qiáng)化學(xué)習(xí)后訓(xùn)練,并完成了一項(xiàng)名為E-TTS的「具身測(cè)試時(shí)拓展」前期工作。

現(xiàn)有的 VLA 強(qiáng)化學(xué)習(xí)方法通常先生成中間推理,再生成動(dòng)作。這種方式往往只強(qiáng)化學(xué)習(xí)動(dòng)作空間,卻忽略了推理質(zhì)量對(duì)動(dòng)作的決定性影響。

E-TTS 框架通過(guò)三個(gè)核心機(jī)制解決了這一痛點(diǎn):首先是推理與動(dòng)作的聯(lián)合擴(kuò)展,同時(shí)擴(kuò)展推理軌跡和動(dòng)作候選;其次是歷史感知的閉環(huán)驗(yàn)證,結(jié)合過(guò)去的歷史推理與動(dòng)作對(duì)以捕捉長(zhǎng)程依賴;最后是自適應(yīng)在線選擇策略,通過(guò)動(dòng)態(tài)分配計(jì)算資源避免陷入局部最優(yōu)。

這項(xiàng)工作展現(xiàn)出了極高的工程實(shí)用價(jià)值。它不需要像傳統(tǒng)的 PPO 或 DPO 算法那樣更新模型權(quán)重,也無(wú)需收集額外的專家數(shù)據(jù)或進(jìn)行微調(diào),極大地降低了落地門檻。在這一框架中,驗(yàn)證器扮演了過(guò)程獎(jiǎng)勵(lì)模型的角色,在每一步對(duì)推理和動(dòng)作的質(zhì)量進(jìn)行打分,實(shí)現(xiàn)方式更加輕量、靈活。

更為重要的是,這項(xiàng)研究向全行業(yè)證明了一個(gè)極具啟示性的結(jié)論:在機(jī)器人領(lǐng)域,單純擴(kuò)大模型規(guī)模或數(shù)據(jù)集,不如在推理時(shí)引入「慢思考」機(jī)制有效。這為計(jì)算資源受限場(chǎng)景下的機(jī)器人智能提升開(kāi)辟了一條全新的路徑。

這種不卷算力、專注數(shù)據(jù)利用率,且完全圍繞真實(shí)場(chǎng)景痛點(diǎn)展開(kāi)的全棧式架構(gòu)重構(gòu),正是黃巖及中科第五紀(jì)能夠在商業(yè)化大考中脫穎而出的核心底牌。

探尋本源,將「人類認(rèn)知」刻入機(jī)器大腦

撥開(kāi) FAM 模型、BridgeV2W 世界模型以及 E-TTS 強(qiáng)化學(xué)習(xí)框架的技術(shù)外衣,黃巖及其團(tuán)隊(duì)所有架構(gòu)創(chuàng)新的深層驅(qū)動(dòng)力,源于一種試圖在硅基芯片上復(fù)現(xiàn)碳基智慧的極客執(zhí)念。

在學(xué)術(shù)界,黃巖出版過(guò)一本探討深度認(rèn)知網(wǎng)絡(luò)的專著《Deep Cognitive Networks》。這部著作的核心思路,就是通過(guò)模擬人類的認(rèn)知機(jī)制來(lái)增強(qiáng)深度學(xué)習(xí)的能力,相關(guān)成果還獲得了 2024 年北京市自然科學(xué)一等獎(jiǎng)。



這種對(duì)人類認(rèn)知機(jī)制的深度拆解,構(gòu)成了中科第五紀(jì)與中科院自動(dòng)化所合作研發(fā)的眾多技術(shù)創(chuàng)新的理論基石。

黃巖向機(jī)器之心總結(jié)了他十余年研究的一條隱形主線:「我們其實(shí)就是在關(guān)注人腦的注意、記憶、推理、決策等認(rèn)知機(jī)制,去實(shí)現(xiàn)它的信息選擇性過(guò)濾、知識(shí)存儲(chǔ)復(fù)用、動(dòng)態(tài)推理以及主動(dòng)決策等認(rèn)知功能。」

無(wú)論是 FAM 模型像人類雙眼一樣進(jìn)行局部注意力聚焦,還是 BridgeV2W 世界模型像人類大腦一樣對(duì)未來(lái)物理操作進(jìn)行安全預(yù)判,亦或是 E-TTS 框架中引入的「慢思考」推理機(jī)制,其核心機(jī)制都在嘗試建立一套符合具身認(rèn)知規(guī)律的智能系統(tǒng)

既然這套模擬人類認(rèn)知的「大腦框架」已有雛形,它亟需海量的數(shù)據(jù)燃料來(lái)啟動(dòng)運(yùn)轉(zhuǎn)。真實(shí)物理交互數(shù)據(jù)極其昂貴,但黃巖很早就將目光投向了另一座巨大的寶庫(kù):互聯(lián)網(wǎng)上海量的人類操作視頻。

讓機(jī)器人直接看懂人類的教學(xué)視頻并學(xué)會(huì)操作,是具身智能領(lǐng)域公認(rèn)的圣杯之一。這其中的阻力顯而易見(jiàn)。

「網(wǎng)絡(luò)上其實(shí)是有很多操作視頻的,但是它們沒(méi)有動(dòng)作標(biāo)注。」黃巖指出了直接利用這些數(shù)據(jù)的最大痛點(diǎn),「如果我們直接讓人工做動(dòng)作標(biāo)注,其實(shí)非常困難。」

為了繞開(kāi)繁瑣的人工標(biāo)注環(huán)節(jié),真正將這些沉睡的視頻資產(chǎn)激活,中科第五紀(jì)聯(lián)合中科院自動(dòng)化所提出了一種名為EC-Flow的流預(yù)測(cè)框架。這項(xiàng)極具前瞻性的研究成果已被計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 ICCV 2025 接收。



EC-Flow,即以本體(Embodiment)為中心的流預(yù)測(cè)網(wǎng)絡(luò)架構(gòu)。分支(a):本體流的預(yù)測(cè)分支(b):目標(biāo)圖像的預(yù)測(cè),該預(yù)測(cè)作為輔助任務(wù),用于將流與對(duì)象交互和語(yǔ)言指令對(duì)齊。arXiv:2507.06224

黃巖解釋了這套方案精妙的解題思路:「我們嘗試去關(guān)注它中間層面的運(yùn)動(dòng)情況,例如圖像中機(jī)械臂關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡。拿到這些運(yùn)動(dòng)軌跡之后,再通過(guò)機(jī)器人本體的配置文件,解算出它的精確行為。」



在真實(shí)世界的開(kāi)冰箱任務(wù)上的流預(yù)測(cè)和實(shí)際任務(wù)執(zhí)行示例。

通過(guò)這種方式,機(jī)器人仿佛擁有了「看視頻自學(xué)」的能力。在面臨被遮擋物體、可變形物體操作等高難度任務(wù)時(shí),其成功率較當(dāng)時(shí)的最佳方案分別提升了 62% 和 45%。



Meta-World 基準(zhǔn)測(cè)試上的模擬結(jié)果。



在真實(shí)世界操作任務(wù)上的結(jié)果。

這項(xiàng)技術(shù)的巨大潛力也引起了國(guó)際頂尖學(xué)者的關(guān)注,斯坦福大學(xué)李飛飛團(tuán)隊(duì)在近期發(fā)布的 Dream2Flow 研究中便引用了這篇論文。



Dream2Flow 論文中引用 EC-Flow 的內(nèi)容。

除了挖掘現(xiàn)有視頻,中科第五紀(jì)還聯(lián)合中科院自動(dòng)化所將這種提升數(shù)據(jù)利用率的巧思應(yīng)用到了數(shù)據(jù)合成領(lǐng)域,研發(fā)了一鍵生成多視角數(shù)據(jù)的技術(shù)。

在真實(shí)場(chǎng)景的采集中,多攝像頭的布置成本高昂,且單視角往往容易面臨視覺(jué)遮擋的風(fēng)險(xiǎn)。黃巖指出,這項(xiàng)具身跨視角數(shù)據(jù)增廣方法的核心優(yōu)勢(shì)在于,能夠基于單一視角的演示數(shù)據(jù),自動(dòng)生成多角度且高保真的機(jī)器人訓(xùn)練數(shù)據(jù)。這套方法結(jié)合了動(dòng)作重定向與生成式視頻修復(fù)技術(shù),通過(guò)自監(jiān)督學(xué)習(xí)實(shí)現(xiàn),整個(gè)過(guò)程完全無(wú)需人工標(biāo)注。使用該方法生成的數(shù)據(jù)進(jìn)行訓(xùn)練后,模型在已知視角和全新視角下的任務(wù)成功率最高分別提升了 18.3% 和 25.8%。





在這個(gè)以落地變現(xiàn)為主旋律的 2026 年,黃巖依然保留著對(duì)技術(shù)本源的純粹好奇。他在追求務(wù)實(shí)的商業(yè)戰(zhàn)場(chǎng)上,小心翼翼地守護(hù)著那份屬于極客的終極浪漫。

雙線作戰(zhàn),迎接 2026 年的商業(yè)大考

如果說(shuō)在頂會(huì)發(fā)論文、探尋認(rèn)知機(jī)理是屬于極客的終極浪漫,那么 2026 年具身智能賽道的商業(yè)化現(xiàn)實(shí),則是一場(chǎng)冷酷的生存淘汰賽。

「去年,投資人更傾向通用的具身智能敘事。現(xiàn)在大家更看重能不能先扎進(jìn)一個(gè)具體的場(chǎng)景里,把活干好。」正如中科第五紀(jì)創(chuàng)始人兼 CEO 劉年豐所觀察到的那樣,一級(jí)市場(chǎng)對(duì)機(jī)器人的認(rèn)知已經(jīng)變得非常務(wù)實(shí)。投資人與客戶已經(jīng)略過(guò)了那些花哨的演示視頻,他們當(dāng)前只看重一點(diǎn):機(jī)器人在真實(shí)場(chǎng)景中能否創(chuàng)造真正的復(fù)購(gòu)率

在這場(chǎng)務(wù)實(shí)的商業(yè)大考中,中科第五紀(jì)交出了一份極具說(shuō)服力的答卷。2026 年初,公司在短短一個(gè)月內(nèi)接連完成規(guī)模達(dá)數(shù)億元的 Pre-A 及 Pre-A+ 輪融資,這正是對(duì)中科第五紀(jì)這種從真實(shí)工業(yè)痛點(diǎn)出發(fā)、腳踏實(shí)地的技術(shù)路線最直接的背書。

資本的青睞與堅(jiān)實(shí)的技術(shù)壁壘并非憑空出現(xiàn)。中科第五紀(jì)背后的核心研發(fā)團(tuán)隊(duì)來(lái)自中科院自動(dòng)化所和清華大學(xué),是一支擁有長(zhǎng)達(dá)十余年技術(shù)蟄伏的科研團(tuán)隊(duì)。

回顧團(tuán)隊(duì)的發(fā)展歷程,他們不僅是國(guó)內(nèi)最早投入多模態(tài)研發(fā)的先驅(qū)之一,更在學(xué)術(shù)與工程的交匯處刻下了眾多開(kāi)創(chuàng)性的里程碑。早在 2013 年他們便發(fā)表了第一篇視覺(jué)-語(yǔ)言理解領(lǐng)域的 ICCV 論文;2016 年將注意力機(jī)制引入多模態(tài)匹配任務(wù)并達(dá)到國(guó)際領(lǐng)先;2019 年率先投入視覺(jué)-語(yǔ)言-導(dǎo)航(VLN)模型的研發(fā),并于 2023 年在全世界率先實(shí)現(xiàn)了該模型的真機(jī)部署。



中科第五紀(jì)的發(fā)展歷程。

在實(shí)戰(zhàn)對(duì)抗中,從 2016 年斬獲 IROS 機(jī)械手抓取與操作冠軍,到 2024 年研發(fā)出業(yè)內(nèi)首個(gè)世界模型的 VLA 大模型,再到 2025 年接連奪得 CVPR 通用操作泛化性挑戰(zhàn)賽冠軍與 ICRA 機(jī)器人虛實(shí)遷移冠軍,這支團(tuán)隊(duì)在具身智能的演進(jìn)之路上始終展現(xiàn)著硬核的集體作戰(zhàn)能力。

在這樣一支兼具學(xué)術(shù)深度與工程落地能力的隊(duì)伍中,在這個(gè)要求嚴(yán)苛的商業(yè)考場(chǎng)上,黃巖必須在兩種身份之間保持精準(zhǔn)的平衡。

學(xué)術(shù)界,他需要帶領(lǐng)學(xué)生探索前沿,哪怕面臨極高的失敗率;在工業(yè)界,他需要從實(shí)際場(chǎng)景中提煉關(guān)鍵科學(xué)問(wèn)題,然后相應(yīng)進(jìn)行模型算法的研發(fā)。

為了將領(lǐng)先的技術(shù)壁壘轉(zhuǎn)化為真實(shí)的產(chǎn)業(yè)生產(chǎn)力,中科第五紀(jì)構(gòu)建了從底層架構(gòu)到軟硬協(xié)同的完整交付能力,面向客戶直接交付具有通用泛化能力的具身大腦和具身機(jī)器人。

在硬件實(shí)體層面,團(tuán)隊(duì)推出了自研的輕量化輪式具身機(jī)器人。這款身高 187 cm 的機(jī)器人全身具備 28 個(gè)自由度,其仿人形手臂集高負(fù)載與高精度力控于一身,具備亞毫米級(jí)的裝配與作業(yè)能力,能夠滿足全天候的連續(xù)作業(yè)需求。



在生態(tài)賦能層面,中科第五紀(jì)正在以具身大腦供應(yīng)商的身份,向更為廣闊的千行百業(yè)滲透。目前,該公司已陸續(xù)與多家知名大型央企展開(kāi)合作。

黃巖對(duì)這種商業(yè)落地策略有著清晰的定位:「具身智能的真正壁壘在于大腦的通用性與泛化能力。我們通過(guò)提供統(tǒng)一的模型大腦來(lái)賦能各式各樣的硬件本體,這樣既能讓機(jī)器人更快地進(jìn)入真實(shí)的作業(yè)場(chǎng)景,也能利用規(guī)模化的出貨來(lái)反哺我們的數(shù)據(jù)體系。」

伴隨著不斷擴(kuò)展的商業(yè)版圖和過(guò)硬的落地能力,中科第五紀(jì)正向著「讓百萬(wàn)機(jī)器人服務(wù)于人類」的愿景穩(wěn)步邁進(jìn)。



結(jié)語(yǔ)

采訪臨近結(jié)束時(shí),我們的話題回到了那個(gè)布滿雜物、光線變幻莫測(cè)的真實(shí)產(chǎn)線。

當(dāng)行業(yè)客戶們拋出那個(gè)頻繁被提出的「適應(yīng)新場(chǎng)景需要多久」的嚴(yán)苛問(wèn)題時(shí),中科第五紀(jì)的機(jī)器人們已經(jīng)做好了準(zhǔn)備。它們不需要在模擬器里跑上幾萬(wàn)次,也不需要依賴堆積如山的服務(wù)器集群去強(qiáng)行記住每一個(gè)像素的改變。只需人類工程師帶著它們?cè)诂F(xiàn)場(chǎng)做 3 到 5 次示范,它們就能憑借著內(nèi)部流動(dòng)的空間熱力圖,瞬間領(lǐng)悟操作的物理真諦。

這份底氣,正是中科第五紀(jì)和中科院自動(dòng)化所團(tuán)隊(duì)用 13 年的技術(shù)蟄伏換來(lái)的。

在這個(gè)算力焦慮蔓延的時(shí)代,這位年輕的技術(shù)狂熱者與實(shí)干家證明了一件事:想要馴服龐大復(fù)雜的物理世界,靠的絕對(duì)不能是盲目的算力堆疊。只有懷揣著對(duì)底層認(rèn)知的敬畏,在每一次代碼重構(gòu)中將數(shù)據(jù)的利用率推向極致,具身智能的齒輪才能真正與人類社會(huì)的工業(yè)齒輪完美咬合。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深圳機(jī)場(chǎng)多人凌晨排長(zhǎng)隊(duì)!“附近超過(guò)200人叫車”!網(wǎng)友:12公里路程被嫌太近

深圳機(jī)場(chǎng)多人凌晨排長(zhǎng)隊(duì)!“附近超過(guò)200人叫車”!網(wǎng)友:12公里路程被嫌太近

南方都市報(bào)
2026-03-27 12:17:17
炸裂!張雪峰遺產(chǎn)分配爆出大瓜

炸裂!張雪峰遺產(chǎn)分配爆出大瓜

互聯(lián)網(wǎng)品牌官
2026-03-26 12:21:26
隨著湖人137-130 雷霆109-119 馬刺123-98 西部最新積分榜出爐

隨著湖人137-130 雷霆109-119 馬刺123-98 西部最新積分榜出爐

林子說(shuō)事
2026-03-28 00:01:46
汽車之家辟謠S9麋鹿測(cè)試,華為又躺槍了

汽車之家辟謠S9麋鹿測(cè)試,華為又躺槍了

科技每日推送
2026-03-26 16:47:52
張雪峰經(jīng)典名言 100 條(完整版)

張雪峰經(jīng)典名言 100 條(完整版)

新浪財(cái)經(jīng)
2026-03-25 06:17:25
張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

張雪峰6年前已離婚,獨(dú)女張姩菡只能分16.5%遺產(chǎn),現(xiàn)任妻子占大頭

楓紅染山徑
2026-03-25 16:56:22
天生就好色的3個(gè)星座,有你嗎?

天生就好色的3個(gè)星座,有你嗎?

同道大叔
2026-03-16 22:01:59
MVP榜:文班亞馬升至榜首!SGA退居次席

MVP榜:文班亞馬升至榜首!SGA退居次席

北青網(wǎng)-北京青年報(bào)
2026-03-27 20:31:07
安徽阜陽(yáng)一女神太漂亮了,這是什么逆天顏值,媲美西施并不過(guò)分

安徽阜陽(yáng)一女神太漂亮了,這是什么逆天顏值,媲美西施并不過(guò)分

小椰的奶奶
2026-03-28 00:56:52
被成龍“泡過(guò)”的三位女星,個(gè)個(gè)性感迷人,其中一位火遍全國(guó)

被成龍“泡過(guò)”的三位女星,個(gè)個(gè)性感迷人,其中一位火遍全國(guó)

阿鳧愛(ài)吐槽
2026-03-23 14:07:43
越扒越有!張雪峰去世早有預(yù)兆,他的3個(gè)不良愛(ài)好,或成催命符

越扒越有!張雪峰去世早有預(yù)兆,他的3個(gè)不良愛(ài)好,或成催命符

潮鹿逐夢(mèng)
2026-03-26 11:24:44
陳玘談WTT改革:一群不懂裝懂的神經(jīng)病,及時(shí)糾錯(cuò)發(fā)展會(huì)更好

陳玘談WTT改革:一群不懂裝懂的神經(jīng)病,及時(shí)糾錯(cuò)發(fā)展會(huì)更好

乒乓助手
2026-03-28 00:04:08
Shams:NBA向理事會(huì)提交三套反擺爛方案,包括采用兩賽季戰(zhàn)績(jī)核算

Shams:NBA向理事會(huì)提交三套反擺爛方案,包括采用兩賽季戰(zhàn)績(jī)核算

懂球帝
2026-03-27 21:13:06
終于上路了!蔚來(lái) ES9 公開(kāi)亮相,霸氣外觀讓人一眼心動(dòng)

終于上路了!蔚來(lái) ES9 公開(kāi)亮相,霸氣外觀讓人一眼心動(dòng)

沙雕小琳琳
2026-03-28 03:46:18
一個(gè)很玄學(xué)的現(xiàn)象:你想要孩子命好,一定要學(xué)會(huì)避讖、避舊、避人

一個(gè)很玄學(xué)的現(xiàn)象:你想要孩子命好,一定要學(xué)會(huì)避讖、避舊、避人

棉花糖媽媽
2026-03-26 21:47:47
一代香港美人,感覺(jué)不是很開(kāi)心的樣子,大家還記得她的名字嗎?

一代香港美人,感覺(jué)不是很開(kāi)心的樣子,大家還記得她的名字嗎?

動(dòng)物奇奇怪怪
2026-03-26 08:35:16
上海人喜歡的車型又變了:特斯拉Model Y排第6,途觀L高居第2

上海人喜歡的車型又變了:特斯拉Model Y排第6,途觀L高居第2

柳先說(shuō)
2026-03-24 21:52:18
給機(jī)關(guān)事業(yè)單位退休人員發(fā)生活補(bǔ)貼合理合規(guī),看看這些地方的做法

給機(jī)關(guān)事業(yè)單位退休人員發(fā)生活補(bǔ)貼合理合規(guī),看看這些地方的做法

郭愛(ài)華追問(wèn)教育
2026-03-25 06:25:09
開(kāi)始清算!許家印最后防線崩塌,高院下令:20日不交錢就徹底禁言

開(kāi)始清算!許家印最后防線崩塌,高院下令:20日不交錢就徹底禁言

歷史偉人錄
2026-03-23 18:25:00
字節(jié)跳動(dòng)發(fā)布2026年首份紀(jì)律通報(bào):65名員工觸碰紀(jì)律紅線被辭退,其中7人因涉嫌刑事犯罪被移交司法機(jī)關(guān)處理

字節(jié)跳動(dòng)發(fā)布2026年首份紀(jì)律通報(bào):65名員工觸碰紀(jì)律紅線被辭退,其中7人因涉嫌刑事犯罪被移交司法機(jī)關(guān)處理

大風(fēng)新聞
2026-03-27 16:50:05
2026-03-28 07:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12619文章數(shù) 142595關(guān)注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價(jià)

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過(guò)了 明天就離婚

頭條要聞

男醫(yī)生給孕妻做彩超 丈夫崩潰撞墻:不過(guò)了 明天就離婚

體育要聞

邵佳一:足球就像一場(chǎng)馬拉松

娛樂(lè)要聞

范瑋琪加盟,官宣《浪姐7》遭全網(wǎng)抵制

財(cái)經(jīng)要聞

我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

汽車要聞

與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
數(shù)碼
游戲

推廣中獎(jiǎng)名單-更新至2026年3月11日推廣

本地新聞

在濰坊待了三天,沒(méi)遇到一個(gè)“濰坊人”

房產(chǎn)要聞

6.8萬(wàn)方!天河員村再征地,金融城西區(qū)開(kāi)發(fā)全面提速

數(shù)碼要聞

洛斐QQ音樂(lè)聯(lián)名外設(shè)泄露:極地苔原色,瞬間激活432Hz自然聲

離譜!PS5全系暴漲 GTA6還沒(méi)出主機(jī)先買不起了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版