網易首頁 > 網易號 > 正文申請入駐

Chat到Code再到Claw：AI的"第三只手"正在改寫物理世界規則

2026-03-18 18:52:27　來源: 硅嶼手記

北京舉報

分享至

導讀：當大模型從對話走向編程，再到操控機械臂，AI正經歷第三次能力躍遷。Andrej Karpathy口中的"Claw時代"，標志著智能體正式叩響物理世界的大門。

硅谷AI圈正在流傳一個極簡公式：Chat → Code → Claw。這條由前特斯拉AI總監Andrej Karpathy拋出的演進鏈條，正在引發技術圈的密集解讀。如果說ChatGPT開啟了人機對話紀元，Cursor和Copilot代表了代碼生成革命，那么"Claw"——這個帶有機械隱喻的詞匯——指向的正是AI與物理世界交互的終極形態。

這不是科幻預言。2024年以來，從Figure AI的人形機器人到斯坦福的Mobile ALOHA，從特斯拉Optimus的產線實訓到國內智元、宇樹等公司的批量出貨，具身智能正以超預期速度穿透實驗室圍墻。Karpathy的推文之所以引發共鳴，在于他用一個單音節詞精準捕捉了這場變革的本質：AI不再滿足于信息層面的"思考"，正在長出操控現實的"爪子"。

從比特到原子：AI的能力邊界正在消融

回溯AI發展軌跡，前兩次躍遷都遵循相似的范式轉移邏輯。Chat階段的核心突破在于語言理解的統一性——一個模型處理問答、翻譯、摘要等多任務，打破了NLP領域長期碎片化的局面。Code階段則展現了推理能力的規模化應用，GitHub Copilot的代碼采納率已超過30%，Cursor更是以"AI原生IDE"的定位斬獲數億美元估值。

但這兩階段存在一個共同天花板：輸出始終停留在數字比特層面。無論對話多么流暢、代碼多么優雅，AI都無法直接改變物理世界的狀態。Claw階段的革命性正在于此——它將大模型的認知能力與機器人的執行閉環嫁接，形成"感知-推理-行動"的完整鏈條。

技術實現路徑已日趨清晰。以Google DeepMind的RT-2為例，該模型將視覺-語言-動作（VLA）能力整合，使機器人能夠理解"撿起即將從桌上掉落的水果"這類包含物理常識的指令。更關鍵的是訓練范式的轉變：傳統機器人依賴人工編程每個動作，而VLA模型通過海量互聯網數據預訓練，獲得了可遷移的物理直覺。Figure AI與OpenAI的合作同樣遵循此邏輯，其最新demo中，人形機器人已能完成"遞蘋果"這類需要常識推理的任務。

硬件成本崩塌：具身智能的"摩爾時刻"到來

能力突破只是故事的一半。Claw時代加速到來的另一驅動力，是硬件成本的斷崖式下跌。

特斯拉Optimus的量產目標已將單臺成本壓向2萬美元區間，這相當于一輛經濟型轎車的價格。國內供應鏈的響應更為激進：宇樹科技的G1人形機器人售價9.9萬元人民幣起，智元遠征A1更是將目標價錨定在20萬元以內。作為對比，波士頓動力Atlas 2016年的造價超過200萬美元。八年時間，成本曲線下降了兩個數量級。

這種降幅并非線性演進，而是中國制造能力與AI算法迭代的共振結果。諧波減速器、力矩傳感器、無框力矩電機等核心部件的國產化，使機器人硬件擺脫了海外壟斷；同時，仿真訓練、Sim2Real遷移、世界模型等技術的成熟，大幅降低了對真實數據的需求。Figure AI創始人Brett Adcock曾透露，其機器人通過仿真環境生成的訓練數據，占比已超過80%。

成本閾值一旦被擊穿，商業飛輪隨即啟動。工業場景成為最先落地的試驗田：特斯拉工廠中，Optimus已參與電池分裝等工序；亞馬遜倉儲機器人Kiva的升級版本，正在測試自主揀選能力；國內汽車工廠對協作機械臂的采購量，2024年同比增長超過40%。這些應用未必需要人形形態，但共享同一套"大模型+執行器"的技術底座。

Claw的隱喻：權力轉移與倫理暗礁

Karpathy選擇"Claw"而非"Robot"作為第三階段符號，本身就值得玩味。Claw在英語中兼具"爪子"與"控制"雙重含義——前者指向物理操控能力，后者暗示一種更原始的權力關系。

這種措辭或許有意無意地揭示了技術演進的深層張力。當AI獲得物理行動力，其風險維度將從信息污染、版權爭議，擴展至人身安全與基礎設施安全。2024年3月，Figure AI發布的一段視頻中，機器人將咖啡杯遞給人類后，手指出現了不自然的抽搐。這個細節被技術社區放大討論：當模型幻覺發生在物理空間，后果不再是"生成錯誤答案"那么簡單。

監管框架的滯后性正在凸顯。歐盟《人工智能法案》將"物理支持機器人"列為高風險類別，但具體合規標準尚未細化；美國NIST的AI風險管理框架，主要聚焦于軟件系統。更具挑戰性的是責任歸屬問題：當大模型驅動的機器人造成損害，開發者、部署方、硬件制造商的法律責任如何劃分？

技術樂觀主義者傾向于將Claw視為人類能力的延伸而非替代。Karpathy本人在后續討論中強調，「Claw的核心價值在于處理3D（臟、危險、枯燥）任務」，釋放人類從事創造性工作。但這一愿景的實現，取決于人機協作界面的設計——是保持人類在決策環內（human-in-the-loop），還是逐步讓渡控制權給自主系統？

臨界點已至，但路徑未明

站在2024年末回望，Chat到Code的躍遷耗時約兩年，Code到Claw的壓縮周期可能更短。技術就緒度、成本曲線、資本密度三項指標同時指向一個結論：具身智能的產業化臨界點已經到來。

但"到來"不等于"成熟"。當前Claw階段的核心瓶頸在于泛化能力——實驗室demo中的驚艷表現，往往難以遷移至未經訓練的物理環境。Google RT-2在未見過的物體上成功率降至50%以下，Figure機器人的操作速度仍比人類慢一個數量級。這些差距暗示，Claw時代的第一波浪潮更可能是"限定場景下的有限自主"，而非通用機器人的全面普及。

更深遠的影響在于經濟結構的重組。若Claw能力持續進化，制造業勞動力成本曲線將被重新定義，服務業的自動化邊界也將外移。這不是遙遠的威脅：富士康已宣布2025年前將30%的產線工人替換為機器人，沃爾瑪的倉庫自動化率三年內從15%提升至55%。

技術史的殘酷之處在于，它從不等待社會準備好。Chat和Code階段尚可通過"數字鴻溝"緩沖沖擊，Claw階段則直接介入物理世界的資源分配。政策制定者、企業決策者、技術開發者需要同步回答一個問題：當AI長出爪子，人類該以怎樣的姿態與之共處？答案的書寫窗口，可能比預期更狹窄。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.