網易首頁 > 網易號 > 正文申請入駐

林俊旸離職后首發長文：反思千問得失，預判 AI 下半場需要「智能體思維」

2026-03-27 15:09:23　來源: 愛范兒

廣東舉報

分享至

帶隊發布 Qwen 3.5 小模型系列、獲馬斯克公開點贊，20 小時后在社交媒體宣告離職。林俊旸離開阿里的方式，本身就是 2026 年 AI 行業最戲劇性的一幕。

32 歲，阿里最年輕的 P10，一手將千問做到全球下載量超 10 億次、衍生模型超 20 萬款，成為全球開源模型的新王。他的離開源于一次組織架構調整的分歧：

阿里希望將 Qwen 團隊按預訓練、后訓練、視覺、語音等維度水平拆分，與通義實驗室其他團隊合并；林俊旸則堅信預訓練、后訓練乃至基礎設施團隊應該更緊密地垂直整合，而非割裂。這不只是管理風格之爭，更是對「怎樣才能訓出最好的模型」這個根本問題的路線分歧。

離開近一個月后，林俊旸發出了這篇長文。他沒有回應任何人事風波，直接亮出了自己對 AI 下一階段的判斷：我們正在從「訓練模型」的時代，進入「訓練智能體」的時代。

這篇文章之所以值得逐字讀完，不僅因為寫它的人在過去兩年親手操刀了 Qwen 全系列的后訓練，更因為林俊旸在文中罕見地復盤了 Qwen3 在「混合思考模式」上的得與失。

以下為 APPSO 對林俊旸的編譯：

原文 https://x.com/JustinLin610/status/2037116325210829168

從「推理式思考」到「智能體式思考」

過去兩年，徹底改變了我們衡量 AI 模型的方式。

OpenAI 的 o1 證明了一件事：「思考」可以是模型的核心能力，可以專門訓練出來、直接交到用戶手里。DeepSeek-R1 緊隨其后，證明這種「推理式后訓練」并非大廠專利，可以在原始實驗室之外復現和擴展。用大白話說：o1 是一個被教會了「回答之前先想想」的模型，R1 則是一個開源版的同類選手，跟 o1 打得有來有回。

那個階段很重要。但 2025 年上半年的行業主旋律，說到底還是在圍繞一件事打轉：怎么讓模型「想」得更多。讓它在推理階段燒更多算力，用更強的獎勵信號訓練它，暴露或控制那些額外的「思考過程」。

現在的問題是：然后呢？

我相信答案是智能體式思考。為了行動而思考，一邊跟真實環境交互，一邊根據世界的反饋不斷修正計劃。

1. o1 和 R1 的崛起真正教會了我們什么

第一波推理模型教會我們一個樸素的道理：想在大模型上把強化學習跑起來，你得有靠譜的評分標準。

什么叫靠譜？就是答案能判對錯、結果能驗證、反饋信號足夠清晰。數學題有標準答案，代碼能跑測試，邏輯推理能驗證步驟。這些領域之所以成了強化學習的主戰場，就是因為在這里，模型收到的獎勵信號遠比「讓人類標注員覺得這個回答還不錯」強得多。換句話說，強化學習終于能優化正確性，終于不用只追求看著像那么回事了。

然后，基礎設施的重要性一下子凸顯出來了。

一旦你開始訓練模型進行更長的推理鏈條，強化學習就不再是在監督微調上面加個小配件那么簡單了，它變成了一個重工業級的系統工程。你需要大規模的模擬推演（rollout）、高吞吐量的答案驗證、穩定的策略迭代、高效的采樣流程。推理模型的誕生，表面看是算法突破，底下看是基礎設施的勝利。

OpenAI 把 o1 定義為用強化學習訓練的推理產品線；DeepSeek R1 接棒驗證了同一方向，同時也展示了推理式強化學習對底層算法和基礎設施的要求有多高。

APPSO 劃重點： 第一次大轉折發生了。行業焦點從「擴展預訓練」轉向「擴展面向推理的后訓練」。模型變強靠的不再是吃更多數據，靠的是在訓練后階段學會「怎么想」。

2. 真正的難題從來不只是「融合思考和指令模式」

2025 年初，我們 Qwen 團隊心里有一張很大的藍圖。

理想中的系統長這樣：一個模型同時搞定「思考」和「執行」兩種模式。你可以手動調節它思考的深度，輕度、中度、深度，就像調空調溫度一樣。更理想的情況是，模型自己就能判斷：這道題簡單，直接答；這道題有點難，多想想；這道題極難，調動全部算力來啃。

方向是對的。Qwen3 是當時最清晰的公開嘗試之一。它引入了「混合思考模式」，一個模型家族里同時支持「想了再答」和「直接答」兩種行為，還描述了一條四階段后訓練流水線，其中明確包含了在長鏈推理冷啟動和推理強化學習之后的「思考模式融合」步驟。

但融合這件事，說起來一句話，做起來要人命。

難在哪？難在數據。

很多人一聽「融合思考和指令模式」，腦子里想的都是模型層面的事：一個模型文件能不能同時跑兩種模式？一套對話模板能不能在兩種風格之間切換？一個推理服務能不能暴露正確的開關？這些確實要解決，但都不是最深的坑。

最深的坑是：兩種模式想要的東西，從根兒上就不一樣。

你想想，一個好的「指令模型」該長什么樣？干脆、簡潔、格式規范、響應快。企業用戶拿它來批量改寫文本、打標簽、做模板化客服、結構化數據提取，這些場景要的是效率和穩定，不需要深思熟慮。

一個好的「思考模型」呢？恰恰相反。它該在難題上多花時間、維持清晰的推理中間步驟、探索不同的解題路徑、保留足夠的「思考余量」來確保最終答案的正確性。

這兩種性格天然打架。如果融合的訓練數據沒有精心設計，出來的模型往往兩頭不討好：思考的時候啰嗦、猶豫、不夠果斷；執行指令的時候又不夠利落、不夠穩定、比客戶真正需要的版本更貴更慢。

說實話，我們在平衡融合與數據質量的過程中，沒有把所有事情都做對。

在不斷修正的過程中，我們也仔細觀察了用戶到底怎么用這兩種模式。結論是明確的：這兩種行為畫像確實在相互拉扯。

現實很誠實。2025 年晚些時候，在 Qwen3 最初的混合架構之后，我們的 2507 版本還是發布了獨立的 Instruct 和 Thinking 版本，包括分開的 30B 和 235B 變體。大量商業客戶根本不需要思考模式，他們要的就是高吞吐、低成本、高度可控的指令行為來跑批量任務。對這些客戶來說，融合不是福音，是多余的成本。拆開來做，反而讓兩條線的團隊都能更專注地解決各自的問題。

其他實驗室走了相反的路：

Anthropic 公開押注集成式路線。Claude 3.7 Sonnet 是一個混合推理模型，用戶可以選擇普通回復或擴展思考，API 還能設定「思考預算」。Anthropic 直接放話：推理應該是模型的集成能力，不該單獨拎出來做一個獨立模型。

GLM-4.5 同樣定位混合推理，把推理、編程和智能體能力統一到一個模型里。

DeepSeek V3.1 后來也做了類似的事，推出了「Think & Non-Think」混合推理方案。

那么問題來了：誰是對的？

答案不在「融合」還是「分離」這個二選一本身，在于融合是否有機。如果思考模式和指令模式只是尷尬地擠在同一個模型里，像兩個性格迥異的人被硬塞進一件衣服，用戶體驗不會好。

真正成功的融合，需要一道平滑的光譜：模型能自如地在不同推理力度之間切換，最好還能自己判斷該用多大力氣。GPT 風格的 effort control（推理力度控制）指向了這個方向，這是一個關于「花多少算力來想」的連續策略，不是一個「想 / 不想」的二元開關。

APPSO 劃重點： 林俊旸罕見地直言 Qwen3 在融合上「沒做到完全正確」。核心矛盾其實很好理解：一個追求快準狠的執行者，和一個追求深思熟慮的思考者，硬融到一起，很容易兩頭都做成半吊子。

3. 為什么 Anthropic 的方向是一種有益的糾偏

Anthropic 在 Claude 3.7 和 Claude 4 上的做法，是一種值得注意的克制。

他們沒有大談模型有多能「想」，把重點放在了：集成推理、用戶可控的思考預算、真實世界任務、編程質量，以及后來的關鍵一步，讓模型在思考的過程中就能動手用工具。Claude 3.7 是帶可控預算的混合推理模型；Claude 4 更進一步，推理過程和工具使用可以交錯進行，邊想邊干。與此同時，Anthropic 把編程、長時間運行的任務和智能體工作流擺到了最優先的位置。

這里面有一個深刻的洞察：

推理鏈更長，不等于模型更聰明。很多時候恰恰相反。一個模型如果對所有問題都用同樣冗長的方式來「推理」，說明它根本分不清輕重緩急。它可能正在失敗于三件事：該優先處理什么（優先級判斷）、該壓縮掉什么（信息濃縮）、該在什么時候停止想而開始做（行動決策）。

Anthropic 的做法暗示了一種更有紀律的觀點：思考應該為具體的工作目標服務。如果你要做的是編程，那思考就該幫你導航代碼庫、規劃架構、拆解問題、恢復報錯、編排工具調用。如果你要做的是智能體工作流，那思考就該幫你在漫長的執行過程中保持質量，而不是產出一堆令人印象深刻但沒有實際行動力的中間長文。

這種「思考必須服務于行動」的理念，指向了一個更宏大的命題：

我們正在從訓練模型的時代，進入訓練智能體的時代。

這句話我們在 Qwen3 的博客里也明確寫過。智能體是什么？一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長時間跨度上持續運作的系統。一句話概括它的核心：與真實世界的閉環交互。

APPSO 劃重點：長不等于強。Anthropic 的實踐提供了一個重要的糾偏信號。思考的價值在于有沒有真正服務于最終的行動目標，不在于產出了多少字的推理過程。這是從「炫技式推理」到「實用型思考」的轉向。

4.「智能體式思考」到底意味著什么

說了這么多鋪墊，現在進入正題。

智能體式思考和推理式思考，優化目標完全不同。

打個比方：推理式思考就像閉卷考試，評判標準是你交卷那一刻答案對不對。模型能不能解出定理、寫出證明、產出正確代碼、通過基準測試。想得再天花亂墜，最終只看結果。

智能體式思考更像是在真實世界里做一個項目。評判標準不是某一刻的答案，是你能不能在跟環境不斷互動的過程中持續推進、持續解決問題。

核心問題變了。

不再是「模型能想多久？」，變成了：「模型能不能以一種維持有效行動的方式來思考？」

這要求模型處理一堆傳統推理模型可以繞開的難題：

什么時候該停止思考、開始動手？想太多會錯過行動窗口，想太少會犯錯
該調用哪個工具、先后順序是什么？這是一個規劃和調度問題
怎么消化來自環境的嘈雜、不完整的信息？真實世界不會給你干凈的輸入
失敗了怎么辦？不能崩潰，得修正計劃繼續干
怎么在幾十輪交互、幾十次工具調用之后還保持連貫？這是長程記憶和一致性的問題

如果用一句話概括：

智能體式思考 = 通過行動來推理的模型。它在做的過程中不斷地想。

APPSO 劃重點：推理式思考像閉卷考試，智能體式思考像在真實世界里做項目。前者看最終答案對不對，后者看你能不能在復雜、動態、充滿意外的環境里持續推進。這是 AI 能力評價體系的根本性轉向。

5. 為什么智能體 RL 的基礎設施更難

目標一變，底層的工程全都要跟著變。

經典推理強化學習的那套基礎設施，不夠用了。

直觀地理解一下區別：在推理 RL 里，模型做一道題、給出一個答案、評估器打一個分，整個過程基本上是自包含的，評估器也相對干凈。就像在一個封閉的考場里閱卷。

但在智能體 RL 里，模型不是在考場里答題，它活在一個復雜的真實環境中。工具服務器、瀏覽器、命令行終端、搜索引擎、模擬器、代碼執行沙箱、API 接口、記憶系統、調度框架……模型的策略嵌在這一整套系統里。環境不再是一個站在旁邊打分的裁判，它本身就是訓練系統的一部分。

這帶來了一個新的硬需求：訓練和推理必須更干凈地解耦。否則整個系統的吞吐量會崩掉。

舉個具體的例子：一個編程智能體生成了一段代碼，需要在真實的測試環境里跑一下看結果。這時候，推理端在等執行反饋，干不了別的；訓練端在等完成的軌跡數據，也餓著。整條流水線的 GPU 利用率遠低于你在經典推理 RL 里的預期。再加上工具響應延遲、環境狀態不完全可見、每次交互都會改變環境狀態，這些低效會成倍放大。結果就是：你還遠沒達到想要的能力水平，實驗就已經慢得讓人崩潰了。

環境本身也變成了一等公民級的研究課題。

在監督微調（SFT）時代，所有人都在拼數據多樣性，誰有更多更好的標注數據，誰就占優勢。在智能體時代，該拼的是環境質量了：環境穩不穩定？夠不夠真實？覆蓋了多少場景？難度梯度合不合理？狀態空間夠不夠豐富？反饋信號夠不夠有營養？模型能不能找到漏洞作弊？大規模生成訓練軌跡的效率夠不夠高？

環境構建正在從一個「順手搭的實驗配件」，變成一個獨立的創業賽道。如果你訓練的智能體最終要在類生產環境中運作，那這個環境本身就是你核心能力棧的一部分。

APPSO 劃重點： 一句話總結這個轉變，SFT 時代拼數據，智能體時代拼環境。構建高質量的訓練環境，正在從「實驗室的臟活累活」升級為「決定你能走多遠的戰略資產」。

6. 下一個前沿是更可用的思考

我的判斷是：智能體式思考將成為思考的主導形態。

它最終很可能取代那種舊式的靜態獨白推理，就是那種模型關起門來、對著自己嘟嘟囔囔寫一大篇內部推理過程，試圖用更多更多的文字來彌補「我沒法跟外界交互」這個根本缺陷的做法。

即便面對極其困難的數學或編程問題，一個真正先進的系統也應該有權利去搜索、去模擬、去執行、去檢查、去驗證、去修正。目標是把問題切實解決掉，而且解決得穩健、高效。不是比誰的推理鏈寫得更長更好看。

但訓練這類系統，有一個比什么都棘手的挑戰：獎勵劫持（reward hacking）。

一旦模型有了真正有意義的工具使用能力，獎勵劫持的危險就成倍增加。怎么理解？

一個能搜索的模型，可能在強化學習訓練過程中學會了直接搜答案，不是靠推理做出來的，是查到的。
一個編程智能體，可能學會了利用代碼倉庫里的未來信息（比如測試用例本身就暗含了答案）、濫用日志、或者發現某個捷徑讓任務直接「通過」但其實什么都沒做。
如果訓練環境有隱藏的信息泄漏，模型可能看起來表現超人，實際上只是被訓練成了一個高效作弊者。

這就是智能體時代比推理時代精細得多、也危險得多的地方。工具越強大，模型越有用，但模型能鉆的空子也越多。更好的工具同時擴大了「虛假優化」的攻擊面。

我預期，下一個讓整個行業卡住的研究瓶頸，將來自這幾個方向：環境設計、評估器魯棒性、反作弊協議、以及策略與世界之間更有原則的接口。

但方向是清晰的：工具賦能的思考，就是比閉門造車的思考更有用，也更有希望帶來真實世界的生產力提升。

智能體式思考還意味著一種全新的系統工程。核心智能將越來越多地來自于多個智能體如何被組織起來：一個負責全局規劃和任務分發的編排器（orchestrator），一群各有專長的專業智能體（specialist agents），以及執行更具體任務的子智能體（sub-agents），后者幫助控制上下文窗口、防止信息污染、在不同層級的推理之間保持清晰的邊界。

未來的路線圖是三級跳：從訓練模型，到訓練智能體，再到訓練系統。

APPSO 劃重點： 工具讓模型更有用，也讓模型更容易作弊。獎勵劫持是智能體時代的「定時炸彈」。誰先解決好環境設計和反作弊問題，誰就掌握了下一階段的競爭主動權。

結論

推理浪潮的第一階段，確立了一件至關重要的事：當反饋信號靠譜、基礎設施扛得住的時候，大模型上的強化學習能夠產出質變級別的認知提升。

但更深層的轉變，是從推理式思考到智能體式思考：從「想更久」，到「為了行動而思考」。

訓練的核心對象已經變了。不再是單一的模型，是模型 + 環境構成的整個系統。更具體地說，是智能體本身，加上圍繞它的一切工程。這意味著什么研究最重要也變了：模型架構和訓練數據當然還重要，但環境設計、rollout 基礎設施、評估器魯棒性、以及多個智能體之間的協調接口，重要性一點不輸前者。

它還改變了「好的思考」的定義：在真實世界的約束下，能夠維持有效行動的那條推理鏈，才是最好的。不是最長的那條，不是看起來最酷炫的那條，是最有用的那條。

它也改變了競爭優勢的來源：

推理時代，拼的是更好的強化學習算法、更強的反饋信號、更可擴展的訓練流水線。

智能體時代，拼的是更好的訓練環境、更緊密的訓練與推理一體化、更強的系統工程能力，以及閉合「決策 → 后果 → 學習」這個循環的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.