網易首頁 > 網易號 > 正文申請入駐

開創VLA的那幫人，正在拋棄VLA

2026-04-13 15:33:47　來源: 機器之心Pro

北京舉報

分享至

編輯 | 澤南

具身智能真的變天了？

上個星期，明星創業公司 Generalist AI 發布的 GEN-1 模型，憑借在各項機器人任務中的極高成功率引發了行業震動。

GEN-1 在三個核心維度上都實現了跨越式提升：成功率超過 99%，速度提升 2-3 倍，只需要上代模型 1/10 的數據和微調，就能達到同樣的性能表現。

Generalist AI 成立于 2024 年，核心愿景是讓「通用型機器人」成為現實。憑借其極具潛力的技術路線，該公司在早期就獲得了包括英偉達和 boldstart ventures 等機構的投資支持。

該公司的核心創始團隊可謂豪華 ——CEO Pete Florence 來自 Google DeepMind，CTO Andrew Barry 來自波士頓動力，首席科學家 Andy Zeng 曾任 Google DeepMind 研究科學家。加入 Generalist 前，該公司的部分成員參與了 PaLM-E、RT-2 等模型的研發與發布，負責將 ChatGPT、GPT-4 規模化推廣至數億用戶，或參與 Atlas、Spot、Stretch 等關鍵自動駕駛技術與機器人系統開發。

在 GEN-1 之前，他們推出的 GEN-0 模型已經驗證了「物理交互數據可以轉化為可預測、可擴展的機器智能」。

GEN-1 發布后，Generalist CEO Pete Florence 本周發布的一篇博客文章再次成為了社區討論的熱點。在文中，作者直指目前具身智能領域流行的 VLA（視覺 - 語言 - 動作）模型趨勢。

作為 VLA 概念的共同開創者，他們現在卻表示要「拋棄」VLA 乃至世界模型的標簽定義，因為在他們看來，過于在意工具的標簽，反而會限制通往物理 AGI 的想象力。

讓我們看看他是怎么說的。

在 GEN-1 中，大約 99% 的參數是從零開始訓練的。

在過去，這或許會被視為一種瘋狂之舉。但對于 Generalist 而言，這卻是一個深思熟慮的抉擇。這一決策源于我們堅定不移的信念 —— 我們為此已潛心耕耘兩年之久 —— 即：只要擁有足夠的數據，通過對基礎模型保持完全的掌控權，便能以更快的步伐推動前沿技術的突破。

GEN-1 絕非那種僅僅生硬地「外掛」了機器人動作模塊的微調版視覺 - 語言模型（VLM），它也不僅僅是一個單純的「世界模型」。它是一個擁有「一等公民」地位、專為物理交互場景而原生構建的基礎模型。越來越多的證據表明：只要具備充足的數據與算力，從零開始進行訓練（training from scratch）始終是致勝之道。

在 2026 年初，「世界模型」正迎來屬于它的高光時刻；而在 2023 至 2025 年間，風頭正勁的則是「視覺 - 語言 - 動作模型」（VLA）。追逐熱點與潮流，本就是學術研究領域的常態。

在 Generalist，我們從未將自家模型歸類為 VLA 或世界模型。這絕非偶然。事實上，我們正是 VLA 概念的共同開創者之一；自 2023 年起，我們便持續在機器人領域發表關于世界模型的研究成果，而我們在這一領域的實際探索與耕耘，更是早在數年前便已啟動。

既然如此，為何我們偏不給模型貼上標簽呢？原因有三：首先，你的終極目標遠比你所使用的「工具」標簽本身更為重要；其次，正如你不會將所有的矩形都統稱為正方形一樣，概念的界定需要精準；最后，是因為技術供給側的格局終將發生演變。接下來，我們將逐一深入剖析這三個層面的考量。

目標比工具上的標簽更重要

首先也是最重要的是，目標比方法更具力量。幾年前，John Schulman 在一篇對比「理念驅動」與「目標驅動」研究的文章中，對這一區別做出了精辟的闡述：理念驅動型研究往往追隨潮流，致力于改進最新的技術方法；而目標驅動型研究則首先確立一個具體的預期成果，隨后著手解決實現該成果過程中遇到的任何障礙。

這種區分至關重要，因為它不僅決定了你會構建出什么，更關鍵的是，它決定了你不會被哪些事物所干擾。正如 Schulman 所指出的 —— 這也是我本人的切身體會 —— 通常而言，目標驅動型路徑往往更具成效。

當前圍繞「世界模型」展開的討論，本質上屬于理念驅動型研究。誠然，這些技術本身確實令人振奮。但構建一個「世界模型」本身，或許并非真正的終極目標 —— 即便對于那些正投身于世界模型研究的科研人員而言，情況亦是如此。真正值得深思的問題在于：你的終極目標究竟是什么？

我們認為，一個極具價值且值得長期追求的目標，是實現機器人技術的「完全零樣本」（Fully Zero-shot）能力：即讓機器人能夠以極高的成功率和運行速度，執行那些它們從未見過的各類任務，且在執行過程中，完全無需任何針對特定任務的訓練數據。如果所涉任務種類繁多、復雜度極高且具有足夠的應用價值，那么實現這一目標，便可被視為需要具備「完全物理通用人工智能」（Full Physical AGI）能力的標志。

不過，在此終極目標達成之前，我們還可以設定一系列具體的階段性里程碑，從而構建一條循序漸進的進階路徑：與其一步到位追求「完全零樣本」，不如先允許為特定任務（姑且稱之為任務 X）提供少量機器人訓練數據，并確保機器人能以極高的性能水平完成該任務。

如此一來，目標驅動型的研發路線圖便清晰可見：在持續提升任務執行性能的同時，逐步削減所需訓練數據量 X。假如我們能僅憑大約一小時的機器人訓練數據，便在各類任務中普遍實現 99% 以上的成功率，那么這項技術將具備廣闊的商業應用前景。這便是一個具體、可量化且完全獨立于具體技術方法之外的「目標驅動型」里程碑。

此外，正如我此前的經驗所印證的那樣：在科研工作中，若能確立既具體又充滿雄心的目標，往往能起到事半功倍的效果：它將成為一個強有力的跳板，引領研究工作向更廣闊的領域拓展。

奇妙的是，這種做法往往比單純選擇某種「看似能解決各類問題」的技術方法要有效得多。一個典型的例證便是：最早問世的多模態語言模型之一，其最初的研發初衷正是為了服務于一項特定的機器人技術目標。然而，在隨后的評估測試中，該模型卻在醫療診斷等一系列基準測試中展現出了卓越的性能。

這一成果的誕生，正是源于一種「凡是解決問題所需，皆全力以赴」的務實心態，而非那種死守某種特定技術方法不放的僵化思維。相反，以目標為導向能賦予你靈活性，讓你得以考量任何有助于達成目標的方法。

我們究竟能走多遠？

其次，若僅通過「非此即彼」（or）的問題（例如必須嚴格在方法 A 和方法 B 之間二選一）來框定機器學習，這種做法是具有局限性的。更深層的真諦在于去追問：「我們究竟能走多遠？」或者更進一步，去對既定目標與約束條件建立更為深刻的理解。

人們往往很自然地認為，事物必須被歸入特定的類別，或者在多種方法或資源來源中必須「擇其一」而用之。幾乎每一個學科都可能陷入這種思維陷阱。舉幾個貼近現實的例子：在機器人學發展的早期階段，曾流行著這樣一種觀點 —— 研究者必須在「感知」與「控制」這兩大領域中擇一深耕。

又如在 2020 年代初期，許多 AI 公司的產品經理曾普遍認為，每一個細分應用場景都注定需要一套專屬的定制模型，卻未能意識到「大規模協同訓練」（cotraining）所能帶來的巨大收益。

然而，真正值得探究的問題其實是：在既定的約束條件下，我們究竟能實現怎樣的突破？我們究竟能走多遠？而在這些約束條件中，又有哪些是可以被打破或消除的？我們究竟能走得多遠？舉一個具體的例子：著名的 Chinchilla 論文正是這種思維理念結出的碩果，它不僅榮獲了 NeurIPS 大會的「杰出論文獎」，更在工業界產生了立竿見影的巨大影響。

在絕大多數情況下，一個「非此即彼」（or）的問題，往往可以轉化為一個「兼而有之」（and）的問題；隨后，這個問題又可進一步轉化為「各類成分應各占多少比例」的配比問題；最終，它將升華為一個關于宏大目標與核心約束條件的深層探究。

在過去兩年間，我們正是秉持著這一理念，對自身的訓練方法進行了持續的迭代與優化。在過去一年多的時間里，我們一直在積極嘗試融合來自不同領域的思想 —— 涵蓋了所謂的「視覺語言動作模型」（VLA）、「世界模型」（World Models），乃至更為前沿的探索方向。當一個模型所融合的跨學科能力越豐富，將其強行歸入某一特定類別也就越發困難。

歸根結底，真正具有決定性意義的唯有一點：它究竟能帶我們走多遠？

視覺-語言模型只是一根「拐杖」？

第三，供給側將會發生變化。你不僅要考量當前的制約因素，更要思考這些制約因素將如何不可避免地發生演變。制約因素變化得越快，這一點就顯得愈發重要。

有人指出，當前的一個制約因素在于機器人領域的數據量尚不充裕。但這并非一種具有長遠眼光的觀點。如今，隨著我們掌握了超過 50 萬小時的物理交互數據，我們已能夠擺脫這一制約，去探索更深層的問題。

同理，將「視覺 - 語言」訓練引入機器人領域，其背后的一大動因正是因為機器人領域自身的數據積累尚顯不足。因此，從某種意義上講，在機器人數據尚未充裕的過渡期內，所有的「視覺 - 語言」訓練都可以被視為一種有益的「拐杖」。誠然，世間現存的視頻數據（以字節計）確實遠多于語言數據，但歸根結底，它依然只是一根「拐杖」。那么，當不再需要這根「拐杖」時，下一步該走向何方？屆時，你還會想要依賴這根「拐杖」嗎？

邁向物理 AGI

目標的力量遠勝于具體的方法；我們應當在既定的制約條件下尋求最優解，而非局限于既有的類別劃分中去「選賽道」；況且，這些制約因素本身也是注定會發生變化的。

自 Generalist 成立之初，我們便始終致力于對一切進行徹底的重構與反思，旨在推動具身通用人工智能（Physical AGI）的實現。正是基于這一理念，我們打造出了 GEN-1—— 這是一個完全從零開始訓練的模型，其訓練所依據的正是我們所擁有的（亦是全球規模最大的）物理交互數據集。無論是模型的架構設計、訓練流程，還是推理執行機制，其每一個環節都經過了精心設計與反復迭代；在這一過程中，我們完全擺脫了那些由他人出于不同目的而預設的決策框架所帶來的束縛。

我們已向世人展示了該模型所具備的驚人潛能 —— 從機器人領域的 Scaling Laws，到僅需數小時便能泛化適應全新環境與具身形態的能力，再到通過大規模預訓練所涌現出的即興智能…… 而這一切，僅僅是一個開端。

參考內容：

https://x.com/peteflorence/status/2041529286562402804

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.