商湯王曉剛攜大曉機器人發(fā)布具身研發(fā)新范式

2025-12-22 11:21:42　來源: 賽博汽車

北京舉報

分享至

當機器人不再執(zhí)著于模仿人類形態(tài)，而是真正理解物理世界運行邏輯，具身智能便迎來了從“能行動”到“會思考”的質(zhì)變。

大曉機器人正在朝著這個方向探索前行。

2025年12月18日，大曉機器人在上海西岸智塔正式亮相。該公司由商湯科技聯(lián)合創(chuàng)始人王曉剛擔任董事長，澳大利亞科學院院士、京東探索研究院創(chuàng)始院長、優(yōu)必選前人工智能首席科學家陶大程出任首席科學家。

從左往右：潘新鋼、李鴻升、陶大程、王曉剛、呂健勤、劉子緯、趙恒爽

發(fā)布會上，大曉機器人系統(tǒng)發(fā)布了以“以人為中心”為理念的三大核心成果：ACE具身研發(fā)范式、開源商業(yè)雙軌并行的開悟世界模型3.0（Kairos3.0），以及適配多場景的具身超級大腦模組A1。

由此，大曉構建起覆蓋“數(shù)據(jù)?模型?硬件”的全鏈條產(chǎn)業(yè)閉環(huán)，旨在推動具身智能走出實驗室、落地千行百業(yè)，真正實現(xiàn)從“技術表演”到“實用產(chǎn)品”的關鍵跨越。

范式革新：以人為中心，構建跨本體的世界認知

具身智能的瓶頸從來不在硬件，而在于對世界的理解。

傳統(tǒng)“以機器為中心”的研發(fā)范式，要么通過真機遙操，導致數(shù)據(jù)采集成本高昂、智能僵化綁定特定硬件；要么依賴純視覺學習讓機器盲目模仿，卻因缺乏物理世界認知而陷入“現(xiàn)實鴻溝”。這兩種路徑都無法突破規(guī)模化、通用化的發(fā)展障礙。

為打破瓶頸，大曉機器人提出“以人為中心（Human-centric）”的ACE具身研發(fā)范式，將人類與物理世界的互動規(guī)律作為核心研究起點。

這一范式的底層思維，是深度融合世界三大本質(zhì)——物理規(guī)律、人類行為與真機動作，打造出首個開源且商業(yè)應用的開悟世界模型3.0（Kairos3.0），為機器人建立起統(tǒng)一的、跨本體的世界認知。

作為“多模態(tài)理解—生成—預測”一體化的世界模型，開悟3.0具備三大核心能力，讓機器從“會模仿”走向“會思考”。

其一，精準認知物理規(guī)律，能夠理解重力、壓力等底層運行機制。例如，在演示的“打開水龍頭接水”等任務中，實現(xiàn)水杯精準定位、水面平穩(wěn)上升，完全符合現(xiàn)實物理邏輯。

其二，建立因果思維鏈。面對“用積木拼搭ACElogo”等復雜任務，能規(guī)劃出“先拼A、再拼C、最后拼E”的合理步驟，實現(xiàn)有序高效的任務執(zhí)行。

其三，強大的預測與生成能力。可生成長時動態(tài)交互場景，支持場景元素可控編輯，更能基于世界知識的共享與遷移，實現(xiàn)跨本體一鍵生成，讓不同形態(tài)的機器人都能完成同一任務。

“我們希望通過世界模型讓機器人理解物理世界的規(guī)律和人類行為的因果一致性，這種方式才是具身智能最本質(zhì)的發(fā)展路徑。”大曉機器人董事長王曉剛表示，開悟3.0的開源將極大降低行業(yè)開發(fā)門檻，推動各類輕量化、定制化具身智能產(chǎn)品快速涌現(xiàn)。

根據(jù)發(fā)布會上的介紹，目前該模型已與沐曦股份、壁仞科技、中科曙光等多款國產(chǎn)芯片完成適配，核心算子覆蓋率提升75%，整體性能達到國際頂尖芯片水平。

數(shù)據(jù)革命：環(huán)境式采集，筑牢認知世界的根基

智能的進化離不開數(shù)據(jù)支撐，具身智能時代對數(shù)據(jù)的需求更是呈現(xiàn)指數(shù)級增長。

在王曉剛看來，特斯拉FSDV14每日訓練量相當于人類駕駛員400萬小時的駕駛經(jīng)驗，而當前具身智能領域的真機數(shù)據(jù)量級僅為10萬小時，數(shù)據(jù)缺口成為行業(yè)發(fā)展的核心痛點。

解決這一問題，需要全新的數(shù)據(jù)采集范式。大曉機器人給出的答案是：環(huán)境式數(shù)據(jù)采集，其核心邏輯是：人類的日常生活本身就是最豐富的天然數(shù)據(jù)環(huán)境，通過采集人類在真實場景中的自然行為，高效獲取“人—物—場”的全要素交互數(shù)據(jù)。

這種采集方式無需專門的采集員和實驗室，工作人員在正常工作生活中佩戴設備即可完成數(shù)據(jù)收集，如同特斯拉通過量產(chǎn)車輛收集駕駛數(shù)據(jù)一般，實現(xiàn)規(guī)模化復制與高效積累。

為實現(xiàn)全要素覆蓋，環(huán)境式數(shù)采整合了第一視角與第三視角視頻、力觸覺信息、運動軌跡、音頻等多模態(tài)數(shù)據(jù)，構建起基于物理基礎的3D資產(chǎn)庫。這些數(shù)據(jù)不僅包含物品的幾何、紋理信息，更精準捕捉了材質(zhì)密度、受力情況、運動學關系等關鍵屬性，為機器人認知世界提供了完整的“啟蒙教材”。

通過時序一致性對齊、交互動態(tài)軌跡預測建模與物理正確性仿真校正，采集到的原始數(shù)據(jù)被轉化為可直接用于模型訓練的高質(zhì)量數(shù)據(jù)，實現(xiàn)了從數(shù)據(jù)采集到應用的全鏈路打通。

相較于傳統(tǒng)數(shù)據(jù)采集方案，環(huán)境式數(shù)采具備四大核心優(yōu)勢：數(shù)據(jù)維度更全面，覆蓋10個視角、8種模態(tài)、5大類物品屬性；任務覆蓋更長程，支持分鐘級、數(shù)百種原子動作的復雜任務；交互精度更高，達到亞像素級標準，可精準追蹤人手精細化操作；采集效率更具規(guī)模化，能快速實現(xiàn)從十萬小時到千萬小時的海量數(shù)據(jù)積累。

據(jù)介紹，在即時零售倉儲場景中，該方案已實現(xiàn)數(shù)萬種SKU全覆蓋，完成倉儲分揀與打包全流程的數(shù)據(jù)采集；在居家場景中，也成功捕捉到洗碗、疊衣服等各類生活行為，為具身智能構建起源源不斷的“數(shù)據(jù)流”。

硬件賦能：超級大腦A1，加速場景商業(yè)化落地

強大的世界模型需要可靠的硬件載體才能釋放價值。

當前機器人行業(yè)普遍存在感知范圍窄、依賴高精地圖、交互能力弱等痛點，限制了商業(yè)化落地進程。為此，大曉機器人推出具身超級大腦模組A1，以“一腦多形”的核心優(yōu)勢，為機器人裝上真正的“行動中樞”。

具身超級大腦模組A1的核心能力源于領先的純視覺無圖端到端VLA模型架構，無需預采高精地圖即可適應復雜、動態(tài)、陌生環(huán)境。搭載該模組的機器人能實現(xiàn)動態(tài)環(huán)境下魯棒、安全、合理的路徑生成，自主應對施工繞行、窄路通行、動態(tài)行人避讓等復雜場景，真正實現(xiàn)“自主行動”。

與行業(yè)同類產(chǎn)品相比，A1模組通過整合Insta360全景感知方案，實現(xiàn)360度全場景覆蓋，解決了傳統(tǒng)機器人跟隨范圍有限、視野狹窄的問題，讓機器狗在任何位置都能精準跟隨用戶。

在交互能力上，A1模組具備強大的云端智能交互能力，依托云端模型平臺實時解析自然語言指令與圖像語義的意圖關系，生成可執(zhí)行的中間指令，再由底層控制器精確執(zhí)行。

這使得機器人不僅能完成自主巡檢、避障等基礎任務，更能根據(jù)自然語言指令精準完成復雜任務，如在巡邏中發(fā)現(xiàn)違章停車后，自主拍照、回傳并上報異常。

同時，A1模組與商湯方舟通用視覺平臺深度打通，集成了安防、能源、交通、文旅等10多個行業(yè)的150多種智能化應用，實現(xiàn)了“移動具身智能+通用視覺平臺”的聯(lián)合。“我們做A1模組的出發(fā)點是滿足場景需求，現(xiàn)有硬件存在很多缺陷，只有從底層重構才能突破瓶頸。”王曉剛解釋道。

A1模組采用工業(yè)級設計標準，具備IP66防護等級，擁有抗電磁干擾、寬溫適應等能力，可在粉塵、雨水等復雜工況下長期穩(wěn)定工作。目前，該模組已適配智元、云深處、宇樹等主流四足機器人本體，真正實現(xiàn)“一腦多形、快速部署”，為安防巡檢、城市治理、能源運維等場景提供了可靠的行業(yè)級解決方案。

具身智能的發(fā)展不是單點突破的游戲，而是全產(chǎn)業(yè)鏈協(xié)同演進的系統(tǒng)工程。大曉機器人深諳生態(tài)的重要性，以開放共贏的姿態(tài)，聯(lián)合具身廠商、芯片企業(yè)、硬件供應商、云服務商、數(shù)據(jù)廠商等多領域伙伴，構建起全鏈路自主可控的具身智能生態(tài)體系。

從范式革新到數(shù)據(jù)革命，從硬件賦能到生態(tài)共建，大曉機器人正以“以人為中心”的核心理念，重新定義具身智能的發(fā)展路徑。

未來，隨著開悟世界模型的持續(xù)迭代、A1模組的場景深化以及生態(tài)體系的不斷完善，短期（1-2年），大曉機器人將推動四足機器人，在閃購倉、前置倉等場景規(guī)模化落地，目標十萬級規(guī)模；中期（3-5年），聚焦前置倉等標準化商業(yè)場景；家庭場景為遠期目標。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.