在具身智能這一軟硬件深度耦合的前沿領(lǐng)域,構(gòu)建一個高質(zhì)量的開源基礎(chǔ)模型底座,是加速整個行業(yè)生態(tài)繁榮的堅實“地基”,也是實現(xiàn)機器人在物理世界大規(guī)模、穩(wěn)定交互的關(guān)鍵。
當前,機器人模型的驗證鏈路冗長,行業(yè)里專用小模型、通用大模型質(zhì)量參差不齊;基礎(chǔ)模型、專用模型、微調(diào)模型魚龍混雜;且缺乏統(tǒng)一的評價標準;開源是撥開迷霧、推動行業(yè)標準化和成熟化的必由之路。
自變量的自研端到端具身智能基礎(chǔ)模型WALL-OSS自開源以來,迅速獲得了全球開發(fā)者的廣泛關(guān)注與應(yīng)用。在我們的開源社區(qū)中,多元背景的開發(fā)者們活躍互動,針對復現(xiàn)問題展開深入交流,自變量技術(shù)團隊亦堅持在一線提供及時的技術(shù)支持。
同時,為進一步展示模型的真實性能并降低復現(xiàn)門檻,我們此前也將WALL-OSS接入了RoboChallenge平臺——這一全球首個大規(guī)模、多任務(wù)的,在真實物理環(huán)境中的真機評測平臺,以開放透明的態(tài)度接受檢驗,賦能更多開發(fā)者。
超越pi0,多項單任務(wù)得分排名第一
近日,RoboChallenge在完成相應(yīng)接口調(diào)試工作后,呈現(xiàn)了最新的模型測試結(jié)果,榜單總分和成功率前三都依次是pi0.5、WALL-OSS、pi0,三者均已開源,WALL-OSS是其中唯一一個國內(nèi)開源具身基礎(chǔ)模型。
![]()
具體來看,WALL-OSS在真實世界中的疊洗碗巾、按按鈕、澆盆栽等多個長序列復雜任務(wù)中得分第一。
并且WALL-OSS目前提交的復現(xiàn)結(jié)果示例,微調(diào)代碼和模型權(quán)重也將在近期全部開源,讓模型展現(xiàn)出的泛化能力、推理能力等有據(jù)可查。除了檢驗測試結(jié)果的真實性,開發(fā)者們也可以在平臺上根據(jù)源代碼和各個任務(wù)的微調(diào)代碼,結(jié)合自己的數(shù)據(jù)完成復現(xiàn)微調(diào)。
長期以來,具身智能的難點和痛點在于尚未形成一個統(tǒng)一的評測標準,供大家盡可能低成本、且比較公平地評測模型,觀察其在真實環(huán)境的泛化能力、魯棒性等。
一個在真實世界公開透明的決斗場對不同的開發(fā)者而言至關(guān)重要,一方面,模型的能力需要真實全面地呈現(xiàn)在“太陽底下”,才能供開發(fā)者們自由選擇,真正起到評測鑒偽的作用;另一方面,高質(zhì)量的基礎(chǔ)模型才能有效避免“重復造輪子”,將有限資源集中于核心突破。
堅持開源,做“提供肩膀的巨人”
自變量從成立以來,就致力于樹立開源的標桿,讓每次開源都對行業(yè)產(chǎn)生價值,并展現(xiàn)我們的思路和探索,彌補技術(shù)空白。通過開源來成為核心基礎(chǔ)設(shè)施的技術(shù)引領(lǐng)者,凝聚更多優(yōu)秀開發(fā)者的智慧,在一些關(guān)鍵問題上一起攻堅突破,推動行業(yè)前行發(fā)展。
以WALL-OSS為開端,我們并不是簡單地提供一個模型,而是一整套完整可復現(xiàn)的方案,包括預訓練模型權(quán)重、訓練代碼、數(shù)據(jù)集接口,以及詳細部署文檔等。隨著越來越多的開發(fā)者復現(xiàn),我們也將一位開發(fā)者自發(fā)撰寫的復現(xiàn)文檔分享在了社群中,供大家參考利用。
此前,自變量機器人聯(lián)合創(chuàng)始人&CTO王昊也在硅谷101播客中明確表達了自變量的初衷——
“我一直都覺得開源是非常重要的事情,開源意味著我們可以站在巨人的肩膀上繼續(xù)前進。我們可以基于已有成果做更多的改進,社區(qū)開發(fā)者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經(jīng)驗,然后把這個技術(shù)路線思考得更加深入。
一般的高校、或者一些小型的企業(yè),他們可能沒有能力去做基礎(chǔ)模型,但是如果能夠使用這些基礎(chǔ)開源模型,他們就可以去做應(yīng)用,把它用到各個方向,豐富整個生態(tài),這也是一個非常重要的事情。
AI的研究我覺得跟大模型之前有很大不一樣。過去,我們可以看到AI和大模型的研究是非常離散的,在真正形成一個社區(qū)之前,可能做研究的只有兩、三個人,大家瘋狂地研究一個算法,更多是以論文發(fā)表作為第一要務(wù),目的是占據(jù)技術(shù)的主動權(quán)。
但有了社區(qū)和整個開源體系之后,大家更在乎的是,怎么在一個工程化的體系下,把這個工程基礎(chǔ)打好,讓這個社區(qū)更加繁榮?個人是通過什么方式給社區(qū)做貢獻?大家的榮譽反而來自于這樣的事情。這樣也就會促使開源模型的技術(shù)不停地發(fā)展。所以我覺得開源是一個非常好的事情,既可以從中學習到新的東西,也可以看到你的東西可能對別人有幫助。”(來源:硅谷101)
開源首先意味著透明與驗證。當模型代碼、訓練數(shù)據(jù)乃至架構(gòu)設(shè)計公之于眾時,任何夸大或不實都將被全球開發(fā)者社區(qū)置于放大鏡下檢驗。每一次復現(xiàn)、每一次部署都是一場嚴格的壓力測試,任何夸大、虛假的演示都無處遁形,也將推動建立以真實性能而非商業(yè)包裝為標準的評價體系,促使行業(yè)競爭從營銷噱頭回歸技術(shù)本身。
具身發(fā)展需要開源凝聚創(chuàng)新力量。未來,具身智能的落地,需要“大腦”(具身基礎(chǔ)模型)與“身體”(機器人硬件)緊密協(xié)同,其中涉及大模型、機器人學、強化學習等多個前沿領(lǐng)域。開源社區(qū)讓全球研究者可協(xié)作攻關(guān),加速跨領(lǐng)域知識融合。開放協(xié)作的“集體智慧”,遠比封閉開發(fā)更能有效應(yīng)對真實世界的復雜性、隨機性。
擁抱開源,以透明對抗虛假,以協(xié)作替代閉門造車。這不僅是對技術(shù)的開放、尊重和敬畏,更是對行業(yè)未來的開拓、負責和擔當。唯有如此,具身智能才能從實驗室走向現(xiàn)實世界,真正惠及千行百業(yè)。
歡迎更多開發(fā)者參與到WALL-OSS模型的復現(xiàn)中,有更多關(guān)于模型及復現(xiàn)的問題歡迎加入我們的開源社群,一起交流探討,獲取最新解答!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.