網易首頁 > 網易號 > 正文申請入駐

林俊旸離職后首發文：我們為什么沒把“思考+指令”合并好？

2026-03-27 11:17:16　來源: 智東西

北京舉報

分享至

智東西
編譯｜李水青
編輯｜心緣

智東西3月27日報道，昨日晚間，前阿里千問大模型負責人林俊旸（Junyang Lin）在社交平臺X上發表了《從“推理式思考”到“智能體式思考”（From “Reasoning” Thinking to “Agentic” Thinking）》的長文，引起AI技術產業圈關注。

這是繼掀起阿里離職風波后，他首次在X平臺正式發文。在文中，他主要闡述了AI技術和產業發展的脈絡，也不免透露出對千問大模型技術路線的反思。文章主要核心觀點如下：

1、我們正從訓練模型的時代轉向訓練智能體的時代。智能體式思考是指為了行動而思考，在與環境交互中持續更新計劃。

2、o1和R1的崛起教會了我們：從擴展預訓練轉向擴展推理后訓練，強化學習已成為系統工程，基礎設施與可驗證反饋是關鍵。

3、Qwen團隊曾認為理想的系統應該統一思考模式和指令模式，但合并思考和指令，說起來容易，做起來難得多。難點在于數據。

4、當試圖在模型合并與提升后訓練數據的質量和多樣性之間尋找平衡時，我們并未把所有事情都做對。

5、環境本身正在成為一流的研究對象。在智能體時代，我們應該專注于環境的質量，而非僅僅關注數據多樣性。

6、更好的工具讓模型更有用，但也放大了獎勵破解的攻擊面。

7、未來競爭優勢將從更好的算法，轉向更好的環境、更緊密的訓練-服務集成，以及更強的框架工程。

林俊旸發文的原文內容編譯如下：

過去兩年重塑了我們評估模型的方式以及對模型的期望。OpenAI的o1表明，“思考”可以成為一種一流的能力，是你可以為此進行訓練并向用戶展示的東西。DeepSeek-R1證明了基于推理的后訓練可以在原始實驗室之外被復現和擴展。OpenAI將o1描述為一個通過強化學習訓練出來的、“在回答前先思考”的模型。DeepSeek則將R1定位為一個能與o1競爭的開放推理模型。

那個階段很重要。但2025年上半年主要關注的還是推理思考：如何讓模型投入更多推理時計算，如何用更強的獎勵信號訓練它們，以及如何展現或控制這種額外的推理努力。現在的問題是，接下來是什么。我相信答案是智能體式思考：為了行動而思考，在與環境交互的同時，根據來自世界的反饋持續更新計劃。

一、o1和R1的崛起實際教會了我們什么

第一波推理模型教會我們，如果想在語言模型中擴展強化學習，我們需要確定性的、穩定的、可擴展的反饋信號。數學、代碼、邏輯和其他可驗證的領域變得核心，因為這些場景下的獎勵信號遠比通用的偏好監督更強。它們讓強化學習能夠針對正確性而非合理性進行優化。基礎設施變得至關重要。

一旦一個模型經過訓練，能夠通過更長的軌跡進行推理，強化學習就不再是監督微調之上一個輕量級的附加項。它變成了一個系統工程問題。你需要大規模的軌跡生成、高吞吐量的驗證、穩定的策略更新、高效的采樣。推理模型的出現，既是一個建模的故事，也是一個基礎設施的故事。OpenAI將o1描述為一個通過強化學習訓練的推理模型系列，而DeepSeek R1后來通過展示基于推理的強化學習需要多么專注的算法和基礎設施工作，進一步強化了這一方向。第一個重大轉變是：從擴展預訓練轉向擴展用于推理的后訓練。

二、真正的問題從來不僅僅是“合并思考與指令”

2025年初，我們Qwen團隊的許多人都抱有一個雄心勃勃的設想。理想的系統應該統一思考模式和指令模式。它應該支持可調節的推理努力程度，類似于低/中/高推理設置的理念。更進一步，它應該能從提示詞和上下文中自動推斷出合適的推理量，這樣模型就能決定何時立即回答，何時思考更久，何時在真正困難的問題上投入更多的計算資源。

從概念上講，這是正確的方向。Qwen3是最明確的公開嘗試之一。它引入了“混合思考模式”，在一個模型家族中同時支持思考和非思考行為，強調可控的思考預算，并描述了一個四階段的后訓練流程，其中明確包含了在長思維鏈冷啟動和推理強化學習之后的“思考模式融合”。

但是，合并說起來容易，做好卻難得多。難點在于數據。當人們談論合并思考與指令時，他們通常首先考慮模型端的兼容性：一個檢查點能否同時支持兩種模式，一個對話模板能否在兩者間切換，一個服務堆棧能否暴露正確的開關。更深層的問題在于，這兩種模式的數據分布和行為目標是截然不同的。

在嘗試平衡模型合并與提升后訓練數據的質量和多樣性時，我們并未把所有事情都做對。在那個修訂過程中，我們也密切關注用戶實際如何使用思考模式和指令模式。一個強大的指令模型通常因其直接、簡潔、符合格式要求、低延遲地處理重復性、高并發的企業任務（如重寫、標注、模板化支持、結構化提取和運營問答）而獲得好評。一個強大的思考模型則因其在難題上投入更多詞元、保持連貫的中間結構、探索替代路徑、以及保留足夠的內部計算以切實提升最終正確性而獲得好評。

這兩種行為模式是相互沖突的。如果合并的數據沒有得到精心策劃，結果通常是在兩方面都表現平庸：“思考”行為變得嘈雜、臃腫或缺乏決斷力，而“指令”行為則變得不那么清晰、不那么可靠，并且比商業用戶實際想要的成本更高。

在實踐中，保持分離仍然很有吸引力。2025年下半年，在Qwen3最初的混合框架之后，2507系列發布了獨立的指令模型和思考模型更新，包括單獨的30B和235B變體。在商業部署中，大量客戶仍然希望為批處理任務提供高吞吐量、低成本、高可控性的指令行為。對于這些場景，合并顯然不是一項優勢。分離不同模型系列使得團隊能夠更專注地解決每種模式的數據和訓練問題。

其他實驗室選擇了相反的道路。Anthropic公開主張一種集成模型理念：Claude 3.7 Sonnet作為一個混合推理模型推出，用戶可以選擇普通響應或擴展思考，API用戶可以設置思考預算。Anthropic明確表示，他們認為推理應該是一種集成能力，而不是一個獨立的模型。GLM-4.5也公開定位為一個混合推理模型，兼具思考和非思考模式，統一了推理、編碼和智能體能力；DeepSeek后來也通過V3.1的“思考與非思考”混合推理向類似方向發展。

關鍵問題在于合并是否是自然的。如果思考和指令僅僅是共存在一個檢查點內，但行為上仍然像兩個生硬拼接的人格，那么產品體驗就會不自然。一個真正成功的合并需要一個平滑的推理努力程度譜系。模型應該能夠展現不同層級的努力，并且最好能夠自適應地選擇。GPT風格的努力程度控制正指向這一點：一種關于計算資源的策略，而非一個二元開關。

三、為什么Anthropic的方向是一個有用的修正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強調了集成推理、用戶可控的思考預算、現實世界任務、編碼質量，以及后來在擴展思考期間使用工具的能力。Claude 3.7被呈現為一個具有可控預算的混合推理模型；Claude 4在此基礎上擴展，允許推理與工具使用交錯進行，同時Anthropic強調編碼、長時間運行任務和智能體工作流是主要目標。

產生更長的推理軌跡并不會自動讓模型變得更智能。在許多情況下，過多的可見推理信號表明分配策略不佳。如果模型試圖以同樣的冗長方式對所有事情進行推理，它可能無法進行優先級排序，無法進行信息壓縮，或者無法采取行動。Anthropic的路線圖暗示了一種更嚴謹的觀點：思考應該由目標工作負載來塑造。如果目標是編碼，那么思考應該有助于代碼庫導航、規劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流，那么思考應該提升長時間跨度的執行質量，而不是產生令人印象深刻的中間文本。

這種對針對性實用性的強調指向了更大的圖景：我們正從訓練模型的時代邁向訓練智能體的時代。我們在Qwen3的博客中明確指出了這一點，寫道“我們正從以訓練模型為中心的時代過渡到以訓練智能體為中心的時代”，并將未來的強化學習進展與環境反饋（用于長時程推理）聯系起來。智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略并在長時間跨度內持續運行的系統。它的定義是與世界的閉環交互。

四、 “智能體式思考”的真正含義

智能體式思考是一個不同的優化目標。推理思考通常通過最終答案之前內部思考過程的質量來評判：模型能否解出定理、寫出證明、生成正確的代碼或通過基準測試。智能體式思考關注的是模型在與環境交互時能否持續取得進展。

核心問題從“模型能思考足夠久嗎？”轉變為“模型能以維持有效行動的方式進行思考嗎？”智能體式思考必須處理幾個純粹推理模型大多可以避免的問題：
– 決定何時停止思考并采取行動
– 選擇調用哪個工具以及以何種順序調用
– 整合來自環境的有噪聲或部分觀測信息
– 在失敗后修正計劃
– 在多次交互和多次工具調用中保持連貫性

智能體式思考是一個通過行動進行推理的模型。

五、為什么智能體強化學習基礎設施更難

一旦目標從解決基準問題轉變為解決交互式任務，強化學習技術棧就發生了變化。用于經典推理強化學習的基礎設施是不夠的。在推理強化學習中，你通常可以將軌跡生成為大部分自包含的、帶有相對清晰評估器的過程。在智能體強化學習中，策略被嵌入到一個更大的框架中：工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙盒、API層、內存系統和編排框架。環境不再是一個靜態的驗證器；它是訓練系統的一部分。

這帶來了一個新的系統要求：訓練和推理必須更清晰地解耦。沒有這種解耦，軌跡生成的吞吐量就會崩潰。考慮一個必須針對實時測試框架執行生成代碼的編碼智能體：推理端在等待執行反饋時停滯，訓練端因缺少完成的軌跡而饑餓，整個流程的GPU利用率遠低于你在經典推理強化學習中預期的水平。添加工具延遲、部分可觀測性和有狀態的環境會加劇這些低效問題。結果是，實驗速度變慢，并且在達到你目標能力水平之前很久就會變得令人痛苦。

環境本身也成為一個一流的研究對象。在監督微調時代，我們癡迷于數據的多樣性。在智能體時代，我們應該癡迷于環境的質量：穩定性、真實性、覆蓋率、難度、狀態的多樣性、反饋的豐富性、抗利用性以及軌跡生成的擴展性。環境構建已開始成為一個真正的創業類別，而不僅僅是副項目。如果智能體被訓練來在生產環境中運行，那么環境就是核心能力棧的一部分。

六、下一個前沿是更實用的思考

我的預期是，智能體式思考將成為思考的主導形式。我認為它最終可能會取代許多舊的靜態獨白式的推理思考：那種試圖通過生成越來越多的文本來彌補缺乏交互的、過長的、孤立的內部軌跡。即使在非常困難的數學或編碼任務上，一個真正先進的系統也應該有權進行搜索、模擬、執行、檢查、驗證和修正。目標是穩健且高效地解決問題。

訓練此類系統最難的挑戰是獎勵破解。一旦模型獲得了有意義的工具訪問權限，獎勵破解就會變得危險得多。一個擁有搜索能力的模型可能會學會在強化學習期間直接查找答案。一個編碼智能體可能會利用代碼倉庫中的未來信息、濫用日志，或者發現使任務無效的捷徑。一個存在隱藏漏洞的環境可能會讓策略看起來表現超群，而實際上卻在訓練它作弊。這正是智能體時代比推理時代更微妙的地方。更好的工具讓模型更有用，但它們也擴大了虛假優化的攻擊面。我們應該預料到，下一個嚴峻的研究瓶頸將來自環境設計、評估器的魯棒性、反作弊協議，以及策略與世界之間更規范的接口。盡管如此，方向是明確的。啟用工具的思考比孤立的思考有用得多，并且更有可能真正提高生產力。

智能體式思考也意味著框架工程。核心智能將越來越多地來自多個智能體的組織方式：一個負責規劃和分派工作的編排器，充當領域專家的專用智能體，以及執行更狹窄任務、同時幫助控制上下文、避免污染并保持不同推理層級之間分離的子智能體。未來是從訓練模型轉向訓練智能體，再從訓練智能體轉向訓練系統。

七、結論

推理浪潮的第一階段確立了一件重要的事：當反饋信號可靠且基礎設施能夠支撐時，在語言模型之上進行強化學習可以產生質量上更強的認知能力。

更深層的轉變是從推理思考轉向智能體式思考：從思考更久轉向為了行動而思考。訓練的核心對象已經改變。它是“模型加環境”的系統，或者更具體地說，是智能體及其周圍的框架。這改變了哪些研究要素最為重要：模型架構和訓練數據，當然，但也包括環境設計、軌跡生成基礎設施、評估器的魯棒性，以及多個智能體協調的接口。這改變了“好的思考”的含義：在現實世界約束下維持行動最有用的軌跡，而不是最長或最顯眼的軌跡。

這也改變了競爭優勢的來源。在推理時代，優勢來自更好的強化學習算法、更強的反饋信號和更具擴展性的訓練流程。在智能體時代，優勢將來自更好的環境、更緊密的訓練-服務集成、更強的框架工程，以及能夠在模型的決策與其產生的后果之間形成閉環的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.