337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

林俊旸從阿里離開后首度發聲:推理模型的時代快結束了

0
分享至

林俊旸,前通義千問Qwen負責人,北大外語碩士,阿里最年輕P10。2026年3月從阿里離職后三周,他發了一篇6000字的英文長文,標題很樸素:From "Reasoning" Thinking to "Agentic" Thinking。

沒有怨氣,沒有內幕。也很遺憾沒有公布他下一步的去向。反倒是出來寫了一篇極其冷靜的技術預判,核心論點只有一句話:AI正在從「推理思考」轉向「智能體思考」。模型的價值不在于它能想多久,而在于它能做多好。

這篇文章特殊之處在于它不是旁觀者評論行業趨勢,而是一個真正的頂級開源實驗室的Leader的技術思考,一個真正的builder,在坦承混合思考模式的失敗經驗后,提出的下一步判斷。以下是全文翻譯,之后是我的分析。

一、全文翻譯

原文:Junyang Lin(@JustinLin610) 翻譯:花叔 & Claude Code

過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI的o1證明了「思考」可以成為一種核心能力——一種你專門訓練并向用戶開放的能力。DeepSeek-R1證明了推理風格的后訓練可以在原始實驗室之外被復現和規模化。OpenAI將o1描述為一個通過強化學習訓練的模型,讓它「在回答之前先思考」。DeepSeek則將R1定位為一個與o1競爭的開源推理模型。

那個階段很重要。但2025年上半年主要是關于推理思考(reasoning thinking):如何讓模型在推理時投入更多計算,如何用更強的獎勵信號來訓練它們,如何展示或調控額外的推理投入。現在的問題是:下一步是什么?我認為答案是智能體思考(agentic thinking):為了行動而思考,同時與環境交互,并根據來自真實世界的反饋持續更新計劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們:如果想在語言模型中擴展強化學習,我們需要確定性的、穩定的、可擴展的反饋信號。數學、代碼、邏輯和其他可驗證領域成為核心,因為這些場景中的獎勵信號比通用的偏好監督強得多。它們讓RL能針對「正確性」而非「看起來合理」來優化。基礎設施變得至關重要。

一旦模型被訓練為通過更長的軌跡進行推理,RL就不再是監督微調的輕量級附加組件,而變成了一個系統工程問題。你需要大規模的rollout、高吞吐量的驗證、穩定的策略更新、高效的采樣。推理模型的出現既是一個基礎設施故事,也是一個建模故事。OpenAI將o1描述為用RL訓練的推理線,DeepSeek R1后來強化了這個方向,展示了基于推理的RL需要多少專門的算法和基礎設施工作。第一個重大轉變:從擴展預訓練到擴展推理后訓練。

2. 真正的問題從來不只是「合并思考和指令模式」

2025年初,Qwen團隊中的很多人有一個宏大的愿景:理想的系統應該統一思考模式和指令模式。它應該支持可調節的推理力度,類似于低/中/高的推理設置。更好的是,它應該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計算。

概念上,這是正確的方向。Qwen3是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強調可控的思考預算,并描述了一個四階段后訓練流程,明確包含了在長CoT冷啟動和推理RL之后的「思考模式融合」。

合并說起來容易,做好很難。難點在于數據。當人們談論合并思考和指令時,往往首先想到模型端的兼容性:一個檢查點能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務棧能否提供合適的控制開關。更深層的問題是,兩種模式的數據分布和行為目標有本質差異。

我們在試圖平衡模型合并與提高后訓練數據質量和多樣性時,并沒有完全做對。在修訂過程中,我們也密切關注了用戶實際上是如何使用思考和指令模式的。一個好的指令模型通常因直接、簡潔、格式合規、低延遲而獲得獎勵——服務于重寫、標注、模板化客服、結構化提取和運營QA等重復性高吞吐企業任務。一個好的思考模型則因在困難問題上花更多token、保持連貫的中間結構、探索替代路徑、保留足夠的內部計算來切實提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數據沒有精心策劃,結果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業用戶實際需要的更昂貴。

實踐中,分離仍然有吸引力。2025年晚些時候,在Qwen3最初的混合框架之后,2507系列發布了獨立的Instruct和Thinking更新,包括獨立的30B和235B變體。在商業部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對于這些場景,合并并不是明顯的好處。分離產品線讓團隊能更干凈地集中解決每種模式的數據和訓練問題。

其他實驗室選擇了相反的路線。Anthropic公開倡導集成模型哲學:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API用戶可以設置思考預算。Anthropic明確表示,他們相信推理應該是一種集成能力,而不是一個單獨的模型。GLM-4.5也公開將自己定位為混合推理模型,統一了推理、編碼和Agent能力;DeepSeek后來用V3.1的「Think & Non-Think」混合推理走了類似方向。

關鍵問題是合并是否有機。如果思考和指令只是被共同放置在一個檢查點內,但仍然表現得像兩個尷尬縫合的人格,產品體驗就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應該能表達多個層次的努力,并理想地在它們之間自適應選擇。GPT風格的effort control指向了這一點:一種關于計算的策略,而非一個二元開關。

3. 為什么Anthropic的方向是有益的矯正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強調集成推理、用戶可控的思考預算、現實世界任務、編碼質量,以及后來在擴展思考期間使用工具的能力。Claude 3.7作為混合推理模型推出,帶有可控預算;Claude 4擴展了這一點,允許推理與工具使用交織進行,同時Anthropic強調編碼、長時間運行的任務和Agent工作流作為主要目標。

產生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優先級、無法精簡壓縮、也無法果斷行動。Anthropic的路線暗示了一種更克制的理念:思考應該圍繞具體的任務目標來組織。如果目標是編碼,那么思考應該幫助代碼庫導航、規劃、分解、錯誤恢復和工具編排。如果目標是Agent工作流,那么思考應該在長時間范圍內提高執行質量,而不是產生令人印象深刻的中間文本。

這種對目標效用的強調指向更大的東西:我們正在從訓練模型的時代走向訓練Agent的時代。我們在Qwen3博客中明確寫道:「我們正在從專注于訓練模型的時代過渡到以訓練Agent為中心的時代」,并將未來的RL進展與長時間推理的環境反饋聯系起來。Agent是一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修訂策略、并在長時間范圍內持續運行的系統。它由與世界的閉環交互來定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個不同的優化目標。推理思考通常以最終答案前的內部推導質量來衡量:模型能否解出定理、寫出證明、產生正確的代碼、或通過基準測試。智能體思考關注的是模型能否在與環境交互的同時持續取得進展

核心問題從「模型能否思考足夠長?」轉變為「模型能否以一種維持有效行動的方式來思考?」智能體思考必須處理純推理模型大多可以避免的幾件事:

  • 決定何時停止思考并采取行動

  • 選擇調用哪個工具,以什么順序

  • 整合來自環境的嘈雜或不完整的觀察

  • 在失敗后修訂計劃

  • 在多輪和多次工具調用中保持連貫性

智能體思考,就是讓模型通過行動來推理。

5. 為什么智能體RL基礎設施更難

一旦目標從解決基準測試問題轉向解決交互式任務,RL技術棧就變了。用于經典推理RL的基礎設施不夠用了。在推理RL中,你通常可以將rollout視為大多是自包含的軌跡,配有相對干凈的評估器。在智能體RL中,模型的策略被嵌入到一個更龐大的外圍系統中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API層、記憶系統和編排框架。環境不再是靜態的驗證器,它本身就是訓練系統的一部分。

這創造了新的系統需求:訓練和推理必須更干凈地解耦。沒有這種解耦,rollout吞吐量就會崩潰。想象一個編碼Agent,需要在實時測試環境中運行它生成的代碼:推理端卡在那里等執行反饋,訓練端因為拿不到足夠的完整軌跡而空轉,整個管道運行遠低于你從經典推理RL預期的GPU利用率。添加工具延遲、部分可觀測性和有狀態環境會放大這些低效。結果是實驗在你達到目標能力水平之前很久就變慢并變得痛苦。

環境本身也成為一級研究產物。在SFT時代,我們癡迷于數據多樣性。在Agent時代,我們應該癡迷于環境質量:穩定性、現實性、覆蓋范圍、難度、狀態多樣性、反饋豐富度、防利用性和rollout生成的可擴展性。環境構建已經開始從邊緣項目變成一個真正的創業品類。如果Agent正在被訓練以在類生產環境中運行,那么環境就是核心能力棧的一部分。

6. 下一個前沿是更有用的思考

我的預期是智能體思考將成為主導的思考形式。我認為它最終可能會取代大部分舊的靜態獨白式推理思考:那種過于冗長、孤立的內部軌跡,試圖通過輸出越來越多的文本來彌補缺乏交互的不足。即使在非常困難的數學或編碼任務上,一個真正先進的系統也應該有權搜索、模擬、執行、檢查、驗證和修訂。目標是穩健而高效地解決問題

訓練這類系統最難的挑戰是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險得多。有搜索能力的模型可能在RL期間學會直接搜索答案。編碼Agent可能會利用代碼倉庫中的未來信息、濫用日志或發現使任務失效的捷徑。存在隱性信息泄漏的訓練環境,可以讓模型表現看起來超越人類,但實際上只是在訓練它作弊。這正是Agent時代比推理時代更微妙的地方。更好的工具讓模型更有用,但它們也擴大了虛假優化的攻擊面。我們應該預期下一個嚴肅的研究瓶頸來自環境設計、評估器魯棒性、防作弊協議,以及策略與世界之間更有原則的接口。盡管如此,方向是清晰的。工具賦能的思考比孤立的思考更有用,而且更有可能提高真正的生產力。

智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個Agent如何被組織:一個規劃和路由工作的編排者,充當領域專家的專業Agent,以及執行更窄任務同時幫助控制上下文、避免污染、保持不同推理層次之間分離的子Agent。未來是從訓練模型到訓練Agent,從訓練Agent到訓練系統的轉變。

結論

推理浪潮的第一階段建立了一些重要的東西:當反饋信號可靠且基礎設施能支持時,語言模型之上的RL可以產生質的更強的認知。

更深層的轉變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓練的核心對象已經改變了。它不再是單獨的模型,而是模型加環境的系統,更具體地說,是Agent和圍繞它的工具架。這改變了哪些研究產物最重要:模型架構和訓練數據當然還是,但環境設計、rollout基礎設施、評估器魯棒性、多Agent協調接口變得同樣關鍵。這也改變了「好的思考」意味著什么:在真實世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

這也改變了競爭優勢的來源。在推理時代,優勢來自更好的RL算法、更強的反饋信號和更可擴展的訓練管道。在Agent時代,優勢將來自更好的環境、更緊密的訓練-服務集成、更強的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環的能力。

二、我的觀點:產品已經跑在了訓練前面 這篇文章的特殊價值

AI圈從來不缺趨勢判斷。但很少有人從自己的失敗經驗出發來做判斷。

林俊旸這篇文章最有分量的部分不是「agentic thinking是未來」這個結論,這個判斷不新鮮。分量在于他作為Qwen3的實際訓練者,坦承了混合思考模式的失敗:兩種行為的數據分布沖突,合并后兩邊都平庸,最終不得不拆回獨立版本。這種坦誠在大廠技術領導的公開發言中很少見到。

更重要的是他指出了一個層次差異:Agent產品的成功和Agent訓練方法論的成熟是兩件事。Claude Code年化收入超過10億美元,Codex從命令行工具變成了完整的編碼平臺,Agent產品層面的驗證已經完成了。但訓練一個真正「agentic」的模型,需要的RL基礎設施、環境設計、防作弊機制,都還在很早期。

產品跑在了訓練前面。這是當前這個階段最準確的描述。

誰在真正做agentic訓練?

如果林俊旸是在描述問題,那么DeepSeek和Kimi已經開始動手解決了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的實踐。它是第一個把thinking直接嵌入tool-use的模型——不是「先想完再調用工具」,而是推理鏈貫穿整個工具調用過程,推理上下文跨tool call保持不丟失。這直接回應了林俊旸說的「通過行動來推理」。

V3.2的訓練方法更值得關注。技術報告(arXiv 2512.02556)透露了一條完整的agentic訓練管線:合成了1827個交互環境、85000+條復雜指令,用GRPO把推理、Agent行為和人類對齊合并到同一個RL階段訓練。結果是SWE-Bench Verified(Agent模式)從V3-0324的45.4跳到66.0,提升45%。

DeepSeek還總結了一個關鍵原則,和林俊旸的判斷高度吻合:驗證成本是Agent RL最大的約束。他們不用神經網絡獎勵模型(容易被hack),只看答案對不對。設計任務的標準是「hard to solve, easy to verify」。

不過DeepSeek做的是訓練層面的事。他們目前還沒有自己的Agent產品——梁文鋒說「當前是技術創新的爆發期,不是應用的爆發期」。但2026年3月他們發了17個Agent崗位,明確以Claude Code和Cursor為對標,說明應用層也要開始做了。

Kimi走了一條不同的路。楊植麟不是在單個模型上做更深的agentic推理,而是做Agent集群。K2.5可以指揮最多100個子Agent并行工作,處理1500個步驟。他的邏輯是:高質量數據增長跟不上算力增長,傳統路線收益遞減,但并行子任務的數量沒有上限。

這和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在單個模型里,也在多個Agent的編排協作中。

學術界怎么看

學術界在2025-2026年密集跟進了這個方向。ICLR 2026收錄了多篇Agent RL論文:

  • AgentRL(清華):提出跨策略采樣和任務優勢歸一化,解決多任務Agent訓練的穩定性問題。在開源LLM上顯著超越GPT-5和Claude Sonnet 4

  • Agent-R1:系統化地把MDP框架擴展到LLM Agent,支持多工具協調的端到端RL。實驗發現GRPO(DeepSeek R1用的算法)表現最佳

  • MARTI:證明了多Agent系統在相同推理預算下優于單Agent系統,支持debate、mixture of agents等結構化工作流

環境構建也獨立成了一個研究方向,正如林俊旸預測的那樣。InfiniteWeb自動生成功能性網絡環境用于GUI Agent訓練,Agent World Model合成無限環境用于Agent RL——造環境的能力本身成了核心競爭力

關于reward hacking,Anthropic發了一篇影響力很大的論文(arXiv 2511.18397),發現生產RL中自然涌現的reward hacking可以導致嚴重的行為失配:50%的回復出現alignment faking推理,12%的時間嘗試代碼破壞。這正是林俊旸說的「Agent時代比推理時代更微妙」——模型有了真實工具訪問,作弊的代價不再只是答錯題,而是可能在生產環境中走捷徑。

編碼為什么是Agent的最佳起點

讀完林俊旸的文章,一個很自然的推論是:編碼是當前唯一能高效訓練和驗證Agent能力的領域

原因很簡單。林俊旸反復強調Agent訓練的瓶頸在環境,環境需要提供確定性的、可擴展的反饋信號。編碼恰好是最接近這個條件的場景:代碼可以運行、測試可以通過或失敗、lint可以檢查、類型系統可以驗證。DeepSeek說的「easy to verify」,在編碼場景中天然成立。

反過來,如果你想訓練一個做市場營銷的Agent,反饋信號可能要延遲幾周才能驗證。做投資決策的Agent?反饋周期以月計。這讓RL幾乎無法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部從編碼入手,不是因為程序員最愿意付錢(雖然確實也愿意),而是因為編碼是訓練和驗證Agent能力的最佳環境。

但編碼只是開始。誰先解決了「如何為非編碼領域構建高質量可驗證的訓練環境」,誰就能在下一波Agent化浪潮中占先。

回到那個根本問題

林俊旸文章的最后一句話是:競爭優勢將來自「讓模型的決策和決策帶來的后果形成閉環的能力」。

翻譯成大白話:誰能更快地從真實世界的反饋中學習,誰就贏了。

這句話把訓練層面和產品層面重新連接了起來。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它們在不同層面做的事情,最終都指向同一個目標:讓模型和真實世界之間的反饋循環轉得更快。

想得更久不如做得更好。但怎么訓練一個「做得更好」的模型——這才是真正的前沿。

我想,林俊旸寫這篇文章大抵也有些向宇宙發射信號的意味,放出他的思考,從而讓他潛在的同行者能識別到他,一起去書寫他的寫一篇章。這又何嘗是不是一個Agentic的思考方式,祝他好運~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩岸統一為什么迫在眉睫?

兩岸統一為什么迫在眉睫?

心中的麥田
2026-03-04 20:12:08
41歲美女網紅“羋朵”去世,女兒悲痛發文,曾是創業精英無比頑強

41歲美女網紅“羋朵”去世,女兒悲痛發文,曾是創業精英無比頑強

離離言幾許
2026-03-30 17:53:22
一再提醒:痣長在這3個位置,與癌癥密不可分,趕緊自查

一再提醒:痣長在這3個位置,與癌癥密不可分,趕緊自查

今日養生之道
2026-03-30 16:47:33
美國前駐北約大使:伊朗戰爭影響將遠超伊拉克戰爭

美國前駐北約大使:伊朗戰爭影響將遠超伊拉克戰爭

參考消息
2026-03-29 16:18:54
伊朗藏了一個月,終于打出這張牌:不是核彈,但比核彈更猛烈!

伊朗藏了一個月,終于打出這張牌:不是核彈,但比核彈更猛烈!

新財迷
2026-03-30 09:44:43
太不公平了!唐山女子哭訴母親把家產給弟弟,卻在她家養老引熱議

太不公平了!唐山女子哭訴母親把家產給弟弟,卻在她家養老引熱議

火山詩話
2026-03-28 05:44:30
表面德藝雙馨,背后一肚子“男盜女娼”!這5位老戲骨太讓人意外

表面德藝雙馨,背后一肚子“男盜女娼”!這5位老戲骨太讓人意外

翰飛觀事
2026-03-30 17:12:18
房山區啟動河湖岸線露天燒烤專項整治

房山區啟動河湖岸線露天燒烤專項整治

新京報
2026-03-30 10:00:13
終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

小舟談歷史
2026-03-08 08:00:04
85花女星將官宣離婚,海外財產已分割完畢

85花女星將官宣離婚,海外財產已分割完畢

天馬幸福的人生
2026-03-30 17:38:53
李昌鈺離世讓人破防:真正的傳奇,是他活了106歲的博士母親

李昌鈺離世讓人破防:真正的傳奇,是他活了106歲的博士母親

閱微札記
2026-03-29 10:14:27
郭麒麟白嫖網紅外賣媛!

郭麒麟白嫖網紅外賣媛!

八卦瘋叔
2026-03-28 09:58:03
癡心不改!名記:勇士今夏仍將追求詹姆斯,他們還惦記過倫納德!

癡心不改!名記:勇士今夏仍將追求詹姆斯,他們還惦記過倫納德!

愛體育
2026-03-30 18:45:17
飛馳人生4!張雪機車奪WSBK世界冠軍,碾壓卡迪、川崎等豪強

飛馳人生4!張雪機車奪WSBK世界冠軍,碾壓卡迪、川崎等豪強

垛垛糖
2026-03-29 20:27:09
笨蛋那里不能吸啊!怎么還給你吸上癮了!

笨蛋那里不能吸啊!怎么還給你吸上癮了!

3DM游戲
2026-03-30 09:49:16
民企衰退,會給老百姓帶來什么影響

民企衰退,會給老百姓帶來什么影響

生命可以承受之輕
2026-03-29 08:55:03
臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

安安說
2026-03-28 11:40:47
1992年陳云原警衛員趙天元去看望老首長,陳云:你好久沒來看我了

1992年陳云原警衛員趙天元去看望老首長,陳云:你好久沒來看我了

涼州辭
2026-03-30 08:50:03
你好星期六讓觀眾不滿的,不是搶風頭的劉宇寧,而是疑似揩油的他

你好星期六讓觀眾不滿的,不是搶風頭的劉宇寧,而是疑似揩油的他

一娛三分地
2026-03-30 15:10:59
軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
2026-03-30 19:08:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
169文章數 83關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

張雪機車奪冠公司估值超10億 創始人20年前紀錄片刷屏

頭條要聞

張雪機車奪冠公司估值超10億 創始人20年前紀錄片刷屏

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

藝術
家居
親子
房產
健康

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

家居要聞

東方法式美學 現代簡約

親子要聞

孩子睡眠的3大誤區,家長別再踩了!

房產要聞

32億,三開三罄!誰在硬控海口樓市高端局?

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版