導讀:當大模型從對話走向編程,再到操控機械臂,AI正經歷第三次能力躍遷。Andrej Karpathy口中的"Claw時代",標志著智能體正式叩響物理世界的大門。
硅谷AI圈正在流傳一個極簡公式:Chat → Code → Claw。這條由前特斯拉AI總監Andrej Karpathy拋出的演進鏈條,正在引發技術圈的密集解讀。如果說ChatGPT開啟了人機對話紀元,Cursor和Copilot代表了代碼生成革命,那么"Claw"——這個帶有機械隱喻的詞匯——指向的正是AI與物理世界交互的終極形態。
![]()
這不是科幻預言。2024年以來,從Figure AI的人形機器人到斯坦福的Mobile ALOHA,從特斯拉Optimus的產線實訓到國內智元、宇樹等公司的批量出貨,具身智能正以超預期速度穿透實驗室圍墻。Karpathy的推文之所以引發共鳴,在于他用一個單音節詞精準捕捉了這場變革的本質:AI不再滿足于信息層面的"思考",正在長出操控現實的"爪子"。
從比特到原子:AI的能力邊界正在消融
回溯AI發展軌跡,前兩次躍遷都遵循相似的范式轉移邏輯。Chat階段的核心突破在于語言理解的統一性——一個模型處理問答、翻譯、摘要等多任務,打破了NLP領域長期碎片化的局面。Code階段則展現了推理能力的規模化應用,GitHub Copilot的代碼采納率已超過30%,Cursor更是以"AI原生IDE"的定位斬獲數億美元估值。
但這兩階段存在一個共同天花板:輸出始終停留在數字比特層面。無論對話多么流暢、代碼多么優雅,AI都無法直接改變物理世界的狀態。Claw階段的革命性正在于此——它將大模型的認知能力與機器人的執行閉環嫁接,形成"感知-推理-行動"的完整鏈條。
技術實現路徑已日趨清晰。以Google DeepMind的RT-2為例,該模型將視覺-語言-動作(VLA)能力整合,使機器人能夠理解"撿起即將從桌上掉落的水果"這類包含物理常識的指令。更關鍵的是訓練范式的轉變:傳統機器人依賴人工編程每個動作,而VLA模型通過海量互聯網數據預訓練,獲得了可遷移的物理直覺。Figure AI與OpenAI的合作同樣遵循此邏輯,其最新demo中,人形機器人已能完成"遞蘋果"這類需要常識推理的任務。
硬件成本崩塌:具身智能的"摩爾時刻"到來
能力突破只是故事的一半。Claw時代加速到來的另一驅動力,是硬件成本的斷崖式下跌。
特斯拉Optimus的量產目標已將單臺成本壓向2萬美元區間,這相當于一輛經濟型轎車的價格。國內供應鏈的響應更為激進:宇樹科技的G1人形機器人售價9.9萬元人民幣起,智元遠征A1更是將目標價錨定在20萬元以內。作為對比,波士頓動力Atlas 2016年的造價超過200萬美元。八年時間,成本曲線下降了兩個數量級。
這種降幅并非線性演進,而是中國制造能力與AI算法迭代的共振結果。諧波減速器、力矩傳感器、無框力矩電機等核心部件的國產化,使機器人硬件擺脫了海外壟斷;同時,仿真訓練、Sim2Real遷移、世界模型等技術的成熟,大幅降低了對真實數據的需求。Figure AI創始人Brett Adcock曾透露,其機器人通過仿真環境生成的訓練數據,占比已超過80%。
成本閾值一旦被擊穿,商業飛輪隨即啟動。工業場景成為最先落地的試驗田:特斯拉工廠中,Optimus已參與電池分裝等工序;亞馬遜倉儲機器人Kiva的升級版本,正在測試自主揀選能力;國內汽車工廠對協作機械臂的采購量,2024年同比增長超過40%。這些應用未必需要人形形態,但共享同一套"大模型+執行器"的技術底座。
Claw的隱喻:權力轉移與倫理暗礁
Karpathy選擇"Claw"而非"Robot"作為第三階段符號,本身就值得玩味。Claw在英語中兼具"爪子"與"控制"雙重含義——前者指向物理操控能力,后者暗示一種更原始的權力關系。
這種措辭或許有意無意地揭示了技術演進的深層張力。當AI獲得物理行動力,其風險維度將從信息污染、版權爭議,擴展至人身安全與基礎設施安全。2024年3月,Figure AI發布的一段視頻中,機器人將咖啡杯遞給人類后,手指出現了不自然的抽搐。這個細節被技術社區放大討論:當模型幻覺發生在物理空間,后果不再是"生成錯誤答案"那么簡單。
監管框架的滯后性正在凸顯。歐盟《人工智能法案》將"物理支持機器人"列為高風險類別,但具體合規標準尚未細化;美國NIST的AI風險管理框架,主要聚焦于軟件系統。更具挑戰性的是責任歸屬問題:當大模型驅動的機器人造成損害,開發者、部署方、硬件制造商的法律責任如何劃分?
技術樂觀主義者傾向于將Claw視為人類能力的延伸而非替代。Karpathy本人在后續討論中強調,「Claw的核心價值在于處理3D(臟、危險、枯燥)任務」,釋放人類從事創造性工作。但這一愿景的實現,取決于人機協作界面的設計——是保持人類在決策環內(human-in-the-loop),還是逐步讓渡控制權給自主系統?
臨界點已至,但路徑未明
站在2024年末回望,Chat到Code的躍遷耗時約兩年,Code到Claw的壓縮周期可能更短。技術就緒度、成本曲線、資本密度三項指標同時指向一個結論:具身智能的產業化臨界點已經到來。
但"到來"不等于"成熟"。當前Claw階段的核心瓶頸在于泛化能力——實驗室demo中的驚艷表現,往往難以遷移至未經訓練的物理環境。Google RT-2在未見過的物體上成功率降至50%以下,Figure機器人的操作速度仍比人類慢一個數量級。這些差距暗示,Claw時代的第一波浪潮更可能是"限定場景下的有限自主",而非通用機器人的全面普及。
更深遠的影響在于經濟結構的重組。若Claw能力持續進化,制造業勞動力成本曲線將被重新定義,服務業的自動化邊界也將外移。這不是遙遠的威脅:富士康已宣布2025年前將30%的產線工人替換為機器人,沃爾瑪的倉庫自動化率三年內從15%提升至55%。
技術史的殘酷之處在于,它從不等待社會準備好。Chat和Code階段尚可通過"數字鴻溝"緩沖沖擊,Claw階段則直接介入物理世界的資源分配。政策制定者、企業決策者、技術開發者需要同步回答一個問題:當AI長出爪子,人類該以怎樣的姿態與之共處?答案的書寫窗口,可能比預期更狹窄。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.