網易首頁 > 網易號 > 正文申請入駐

從 Manus 到 GO-1：當AI逐漸走入物理世界

2025-03-11 09:12:00　來源: 山自

北京舉報

分享至

2025年3月的中國AI領域無疑是一顆投入平靜湖面的巨石，激起層層巨浪，吸引了全球的目光。先是Manus通用AI Agent以“全球首款執行級智能體”的姿態橫空出世，如同一道耀眼的閃電劃破科技的夜空；緊接著，GO - 1通用具身基座大模型宣布開源，宣稱要“重新定義人機交互邊界”，似一場風暴席卷而來。這兩大技術的碰撞與競爭，讓人們不禁思考：當AI開始從云端走向物理世界，真正參與到現實的交互與創造中，人類距離真正的智能革命究竟還有多遠？

Manus：“執行級AI Agent”的降維打擊

Manus是由中國初創公司Monica.im開發的全球首款通用型AI智能體，其核心定位是自主執行復雜任務并交付成果。Manus的出現標志著AI智能體從單一任務執行向復雜決策的跨越，其名稱源自拉丁文“mens et manus”，意為“知行合一”，強調知識與行動的結合。

1.核心能力：從“思考”到“行動”的閉環

Manus的出現，宛如一場技術革命，打破了傳統AI僅僅作為“工具”的屬性。它不再是被動地等待指令，而是具備了從理解指令到自主拆解任務、調用工具、跨平臺執行并最終交付完整成果的能力，形成了一個從“思考”到“行動”的完美閉環。

在金融分析領域，當用戶輸入“分析特斯拉股價波動”這樣的指令時，Manus就像一位專業的金融分析師，能夠自動抓取特斯拉的財報，關聯美聯儲的政策信息，最終生成可視化的報告。這一過程不僅高效，而且精準，大大節省了金融從業者的時間和精力。

在教育場景中，教師只需上傳教材，Manus就能自動生成教案、制作PPT、編寫練習題，甚至還能模擬課堂互動。這對于教育工作者來說，無疑是一個得力的助手，能夠讓他們將更多的精力放在教學方法的創新和與學生的互動上。

在企業級應用方面，某跨境電商客戶利用Manus完成了競品分析、廣告投放、物流調度等全流程工作，效率提升了400%。這一顯著的成效充分展示了Manus在實際業務中的強大執行力和價值。

更值得一提的是，Manus在GAIA基準測試中的表現堪稱驚艷。其綜合得分達到了86.5%，遠超OpenAI Deep Research的67.9%。這一數據表明，AI終于從“實驗室玩具”進化為“職場殺手級助手”，能夠在實際工作中發揮重要作用。

2. 技術底層：通用智能體的“靈魂三要素”

Manus之所以能夠具備如此強大的能力，得益于其通用智能體的“靈魂三要素”。

多模態感知是Manus的重要特性之一。它能夠兼容文本、圖像、語音等多維度輸入，就像人類擁有多種感官一樣，能夠從不同的渠道獲取信息，從而更全面地理解用戶的需求。

動態規劃則是Manus高效執行任務的關鍵。通過強化學習，它能夠實時調整任務的優先級，根據實際情況靈活安排工作流程，確保任務能夠以最優的方式完成。

云端執行是Manus的強大后盾。依托分布式算力網絡，它能夠實現7×24小時不間斷作業，無論何時何地，都能為用戶提供及時、高效的服務。

正如團隊核心成員季逸超所言：“Manus不是更聰明的AI，而是更像‘人’的AI。”它的出現，讓AI更加貼近人類的思維和行為方式，為人類的工作和生活帶來了更多的便利。

GO - 1：具身智能時代的“全能智囊團”

如果說Manus代表了人工智能在工具化應用上的突破，那么智元機器人發布的GO-1則是具身智能領域的一次重大飛躍。GO-1是全球首個通用具身基座大模型，它開創性地提出了Vision-Language-Latent-Action（ViLLA）架構。這一架構由VLM（多模態大模型）和MoE（混合專家）組成，通過深度學習和生成式人工智能技術，實現了視覺、語言和動作的深度融合。

1.ViLLA架構：從“數據模型”到“物理世界的交互接口”

ViLLA架構的核心在于彌合圖像-文本輸入與機器人執行動作之間的鴻溝。與傳統的Vision-Language-Action（VLA）架構相比，ViLLA通過引入Latent Action Tokens（隱式動作標記），顯著提升了模型的動作規劃和執行能力。在實驗中，GO-1在五種不同復雜度的任務上表現卓越，成功率比現有最優模型提高了32。

2.GO-1的四大創新

（1）人類視頻學習
GO-1能夠結合互聯網視頻和真實人類示范進行學習，增強模型對人類行為的理解。

（2）小樣本快速泛化
在極少數據甚至零樣本的情況下，GO-1能夠快速泛化到新場景和任務，極大地降低了具身智能的應用門。

（3）一腦多形
GO-1能夠靈活部署到不同類型的機器人本體上，支持多種機器人形態，展現出極高的通用性和靈活。

（4）持續進化
通過數據回流系統，GO-1能夠在實際使用中不斷學習和優化自身性能，越用越聰。

3.GO-1的應用場景

GO-1的推出標志著具身智能向通用化、開放化和智能化方向的快速發展。未來，機器人將不再局限于實驗室，而是能夠適應多變的真實世界環。例如，在工業制造、物流配送、家庭服務等領域，GO-1能夠通過視覺、語言和動作的深度融合，實現高效的任務執行。

產業鏈重構與競爭升維以生成式AI和大模型為代表的新一輪人工智能浪潮正在使廣泛的價值鏈受益。例如，算力需求的激增推動了芯片和云計算產業升級，數據成為核心生產資料，催生數據治理和隱私計算市場。同時，智能化應用的深化加速了制造、醫療、內容、金融等行業的轉型升級。

從“數據模型”到“物理世界的交互接口”

與Manus側重“執行”不同，GO - 1主打“理解與生成”，它的技術定位是成為物理世界的交互接口。其核心技術包括多模態大模型、具身推理和工具學習。

多模態大模型支持圖文音視頻的實時融合分析，能夠像人類一樣綜合處理多種信息，從而更準確地理解物理世界中的各種場景和指令。

具身推理通過傳感器數據構建動態環境模型，讓GO - 1能夠感知周圍的環境變化，并根據這些變化做出相應的決策。

工具學習則使GO - 1能夠調用機械臂、無人機等實體設備執行指令，真正實現了從虛擬世界到物理世界的跨越。

商業博弈：中國AI軍團的全球突圍戰

Manus派強調“任務導向”，通過標準化接口接入現有工具鏈，這種方式適合快速商業化。它能夠在短時間內為企業和用戶提供高效的服務，滿足市場的需求。

GO - 1派則專注于“系統級智能”，通過深度硬件協同與自主決策能力，構建物理世界的實時交互閉環。它更像是 “嬰兒學習”—— 從感知環境到動作執行全鏈路自主進化，而非依賴外部工具。例如，GO-1 通過 AgiBot World 百萬真機數據集訓練，能在無預設場景下理解人類指令并完成倒水、組裝等精細操作，這種能力在工業質檢、服務機器人等領域展現出顛覆性潛力。其與蘑菇車聯車路云網絡的結合，更實現了從 “單車智能” 到 “城市級智能體” 的躍遷，為自動駕駛、低空物流等場景提供系統級解決方案。

兩者并無優劣之分。Manus搶占企業服務市場，憑借其強大的執行能力和高效的任務處理能力，為企業提供全方位的解決方案；GO - 1深耕硬件集成領域，通過與實體設備的深度融合，實現物理世界的智能交互。

政策對AI的支持

在政策層面，中國政府高度重視人工智能的發展。2025年全國兩會再次強調“人工智能+”行動，提出要持續推進“人工智能+”，將數字技術與制造優勢、市場優勢更好結合起來。這一政策導向將為人工智能技術的落地和應用提供有力支持。從“互聯網+”到“人工智能+”，AI已成為全球新一輪科技革命和產業變革的核心內容。未來，隨著技術的不斷進步和政策的支持，人工智能將在更多領域實現突破，推動社會的智能化發展。

AI的 “具身化” 與 “通用化”

從 Manus 的爭議到 GO-1 的突破，AI 的發展從未如此貼近現實。當智元機器人在臨港工廠量產人形機器人，當 Manus 的更新預告引發期待，我們正站在一個新時代的門檻：AI 不再是屏幕后的代碼，而是能感知、思考、行動的 “數字生命體”，

正如蘑菇車聯通過深度整合物理世界實時數據的AI大模型--MogoMind構建城市的實時數字孿生底座，其通感算網絡已賦能自動駕駛、低空經濟等領域，為AI 與物理世界的深度融合提供了基礎設施支撐。這場技術革命，或將重新定義人類與世界的交互方式。

具身化是AI發展的重要方向。AI將從虛擬世界走向物理世界，通過機器人、無人機等終端直接參與生產生活。這意味著AI將不再僅僅是人們在屏幕前使用的工具，而是能夠真正融入到人們的生活和工作中，成為人們的伙伴和助手。

通用化也是AI發展的必然趨勢。單一任務模型將被基座模型取代，AI系統需同時具備理解、推理、執行的綜合能力。這將使AI能夠更加靈活地應對各種復雜的任務和場景，為人類提供更加全面、高效的服務。

這一趨勢與馬斯克的Optimus、特斯拉的AI戰略不謀而合。當具身智能與通用智能體深度融合，AI或將真正成為 “人類的延伸”—— 既能在云端運籌帷幄，又能在現實世界動手創造智能時代的終極圖景 —— 一個虛實交融、萬物互聯的實時數字孿生世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.