網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

林俊旸離職后首度發(fā)聲

2026-03-26 23:36:48　來(lái)源: 互聯(lián)網(wǎng)坊間八卦

上海舉報(bào)

分享至

3月26日晚間，前千問(wèn)技術(shù)負(fù)責(zé)人林俊旸在x上發(fā)布長(zhǎng)文詳談自己對(duì)大模型發(fā)展路線的理解及對(duì)AI下一階段的預(yù)判，這也是林俊旸自阿里離職后，首度發(fā)聲。

原文：Junyang Lin (@JustinLin610)

翻譯：文心一言（注：有錯(cuò)誤的希望大家指正）

文本正文

過(guò)去兩年重塑了我們?cè)u(píng)估模型的方式和對(duì)模型的期望。OpenAI 的 o1 證明了「思考」可以成為一種核心能力——一種你專門訓(xùn)練并向用戶開(kāi)放的能力。DeepSeek-R1 證明了推理風(fēng)格的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)和規(guī)模化。OpenAI 將 o1 描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型，讓它「在回答之前先思考」。DeepSeek 則將 R1 定位為一個(gè)與 o1 競(jìng)爭(zhēng)的開(kāi)源推理模型。

那個(gè)階段很重要。但 2025 年上半年主要是關(guān)于推理思考（reasoning thinking）：如何讓模型在推理時(shí)投入更多計(jì)算，如何用更強(qiáng)的獎(jiǎng)勵(lì)信號(hào)來(lái)訓(xùn)練它們，如何展示或調(diào)控額外的推理投入。

現(xiàn)在的問(wèn)題是：下一步是什么？我認(rèn)為答案是智能體思考（agentic thinking）：為了行動(dòng)而思考，同時(shí)與環(huán)境交互，并根據(jù)來(lái)自真實(shí)世界的反饋持續(xù)更新計(jì)劃。

1. o1 和 R1 的崛起真正教會(huì)了我們什么

第一波推理模型教會(huì)了我們：如果想在語(yǔ)言模型中擴(kuò)展強(qiáng)化學(xué)習(xí)，我們需要確定性的、穩(wěn)定的、可擴(kuò)展的反饋信號(hào)。數(shù)學(xué)、代碼、邏輯和其他可驗(yàn)證領(lǐng)域成為核心，因?yàn)檫@些場(chǎng)景中的獎(jiǎng)勵(lì)信號(hào)比通用的偏好監(jiān)督強(qiáng)得多。它們讓 RL 能針對(duì)「正確性」而非「看起來(lái)合理」來(lái)優(yōu)化。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為通過(guò)更長(zhǎng)的軌跡進(jìn)行推理，RL 就不再是監(jiān)督微調(diào)的輕量級(jí)附加組件，而變成了一個(gè)系統(tǒng)工程問(wèn)題。你需要大規(guī)模的 rollout、高吞吐量的驗(yàn)證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)既是一個(gè)基礎(chǔ)設(shè)施故事，也是一個(gè)建模故事。

第一個(gè)重大轉(zhuǎn)變：從擴(kuò)展預(yù)訓(xùn)練到擴(kuò)展推理后訓(xùn)練。

2. 真正的問(wèn)題從來(lái)不只是「合并思考和指令模式」

2025 年初，Qwen 團(tuán)隊(duì)中的很多人有一個(gè)宏大的愿景：理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理力度，類似于低/中/高的推理設(shè)置。更好的是，它應(yīng)該能從提示和上下文中自動(dòng)推斷合適的推理量，讓模型自己決定何時(shí)立即回答、何時(shí)多想一會(huì)兒、何時(shí)為真正困難的問(wèn)題投入大量計(jì)算。

概念上，這是正確的方向。Qwen3 是最清晰的公開(kāi)嘗試之一。它引入了「混合思考模式」，在一個(gè)模型家族中同時(shí)支持思考和非思考行為，強(qiáng)調(diào)可控的思考預(yù)算，并描述了一個(gè)四階段后訓(xùn)練流程，明確包含了在長(zhǎng) CoT 冷啟動(dòng)和推理 RL 之后的「思考模式融合」。

但合并說(shuō)起來(lái)容易，做好很難。難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎己椭噶顣r(shí)，往往首先想到模型端的兼容性：一個(gè)檢查點(diǎn)能否支持兩種模式，一個(gè)聊天模板能否在兩者之間切換，一個(gè)服務(wù)棧能否提供合適的控制開(kāi)關(guān)。更深層的問(wèn)題是，兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。

我們?cè)谠噲D平衡模型合并與提高后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性時(shí)，并沒(méi)有完全做對(duì)：

一個(gè)好的指令模型通常因直接、簡(jiǎn)潔、格式合規(guī)、低延遲而獲得獎(jiǎng)勵(lì)——服務(wù)于重寫、標(biāo)注、模板化客服、結(jié)構(gòu)化提取和運(yùn)營(yíng) QA 等重復(fù)性高吞吐企業(yè)任務(wù)。
一個(gè)好的思考模型則因在困難問(wèn)題上花更多 token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠的內(nèi)部計(jì)算來(lái)切實(shí)提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數(shù)據(jù)沒(méi)有精心策劃，結(jié)果通常是兩邊都平庸：「思考」行為變得噪聲大、臃腫或不夠果斷，而「指令」行為變得不夠干脆、不夠可靠，且比商業(yè)用戶實(shí)際需要的更昂貴。

實(shí)踐中，分離仍然有吸引力。2025 年晚些時(shí)候，Qwen3 的 2507 系列發(fā)布了獨(dú)立的 Instruct 和 Thinking 更新，包括獨(dú)立的 30B 和 235B 變體。在商業(yè)部署中，大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來(lái)進(jìn)行批量操作。對(duì)于這些場(chǎng)景，合并并不是明顯的好處。

其他實(shí)驗(yàn)室選擇了相反的路線。Anthropic 公開(kāi)倡導(dǎo)集成模型哲學(xué)：Claude 3.7 Sonnet 作為混合推理模型推出，用戶可以選擇普通回復(fù)或擴(kuò)展思考，API 用戶可以設(shè)置思考預(yù)算。Anthropic 明確表示，他們相信推理應(yīng)該是一種集成能力，而不是一個(gè)單獨(dú)的模型。

關(guān)鍵問(wèn)題是合并是否有機(jī)。如果思考和指令只是被共同放置在一個(gè)檢查點(diǎn)內(nèi)，但仍然表現(xiàn)得像兩個(gè)尷尬縫合的人格，產(chǎn)品體驗(yàn)就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應(yīng)該能表達(dá)多個(gè)層次的努力，并理想地在它們之間自適應(yīng)選擇。GPT 風(fēng)格的 effort control 指向了這一點(diǎn)：一種關(guān)于計(jì)算的策略，而非一個(gè)二元開(kāi)關(guān)。

3. 為什么 Anthropic 的方向是有益的矯正

產(chǎn)生更長(zhǎng)的推理軌跡并不會(huì)自動(dòng)讓模型更智能。在很多情況下，過(guò)多的可見(jiàn)推理痕跡反而暴露了糟糕的計(jì)算分配。如果模型對(duì)什么問(wèn)題都用同樣冗長(zhǎng)的方式推理一遍，說(shuō)明它無(wú)法有效排序優(yōu)先級(jí)、無(wú)法精簡(jiǎn)壓縮、也無(wú)法果斷行動(dòng)。Anthropic 的路線暗示了一種更克制的理念：思考應(yīng)該圍繞具體的任務(wù)目標(biāo)來(lái)組織。

這種對(duì)目標(biāo)效用的強(qiáng)調(diào)指向更大的東西：我們正在從訓(xùn)練模型的時(shí)代走向訓(xùn)練 Agent 的時(shí)代。Agent 是一個(gè)能制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修訂策略、并在長(zhǎng)時(shí)間范圍內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它由與世界的閉環(huán)交互來(lái)定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個(gè)不同的優(yōu)化目標(biāo)。

推理思考
通常以最終答案前的內(nèi)部推導(dǎo)質(zhì)量來(lái)衡量：模型能否解出定理、寫出證明、產(chǎn)生正確的代碼、或通過(guò)基準(zhǔn)測(cè)試。
智能體思考
關(guān)注的是模型能否在與環(huán)境交互的同時(shí)持續(xù)取得進(jìn)展。

核心問(wèn)題從「模型能否思考足夠長(zhǎng)？」轉(zhuǎn)變?yōu)椤?strong>模型能否以一種維持有效行動(dòng)的方式來(lái)思考？」

智能體思考必須處理純推理模型大多可以避免的幾件事：

決定何時(shí)停止思考并采取行動(dòng)；
選擇調(diào)用哪個(gè)工具，以什么順序；
整合來(lái)自環(huán)境的嘈雜或不完整的觀察；
在失敗后修訂計(jì)劃；
在多輪和多次工具調(diào)用中保持連貫性。

智能體思考，就是讓模型通過(guò)行動(dòng)來(lái)推理。

5. 為什么智能體 RL 基礎(chǔ)設(shè)施更難

一旦目標(biāo)從解決基準(zhǔn)測(cè)試問(wèn)題轉(zhuǎn)向解決交互式任務(wù)，RL 技術(shù)棧就變了。用于經(jīng)典推理 RL 的基礎(chǔ)設(shè)施不夠用了。在智能體 RL 中，模型的策略被嵌入到一個(gè)更龐大的外圍系統(tǒng)中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng)和編排框架。環(huán)境不再是靜態(tài)的驗(yàn)證器，它本身就是訓(xùn)練系統(tǒng)的一部分。

這創(chuàng)造了新的系統(tǒng)需求：訓(xùn)練和推理必須更干凈地解耦。沒(méi)有這種解耦，rollout 吞吐量就會(huì)崩潰。想象一個(gè)編碼 Agent，需要在實(shí)時(shí)測(cè)試環(huán)境中運(yùn)行它生成的代碼：推理端卡在那里等執(zhí)行反饋，訓(xùn)練端因?yàn)槟貌坏阶銐虻耐暾壽E而空轉(zhuǎn)，整個(gè)管道運(yùn)行遠(yuǎn)低于預(yù)期的 GPU 利用率。

環(huán)境本身也成為一級(jí)研究產(chǎn)物。在 SFT 時(shí)代，我們癡迷于數(shù)據(jù)多樣性。在 Agent 時(shí)代，我們應(yīng)該癡迷于環(huán)境質(zhì)量：穩(wěn)定性、現(xiàn)實(shí)性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富度、防利用性和 rollout 生成的可擴(kuò)展性。環(huán)境構(gòu)建已經(jīng)開(kāi)始從邊緣項(xiàng)目變成一個(gè)真正的創(chuàng)業(yè)品類。

6. 下一個(gè)前沿是更有用的思考

我的預(yù)期是智能體思考將成為主導(dǎo)的思考形式。它最終可能會(huì)取代大部分舊的靜態(tài)獨(dú)白式推理思考：那種過(guò)于冗長(zhǎng)、孤立的內(nèi)部軌跡，試圖通過(guò)輸出越來(lái)越多的文本來(lái)彌補(bǔ)缺乏交互的不足。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上，一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修訂。目標(biāo)是穩(wěn)健而高效地解決問(wèn)題。

訓(xùn)練這類系統(tǒng)最難的挑戰(zhàn)是獎(jiǎng)勵(lì)作弊（reward hacking）。一旦模型獲得有意義的工具訪問(wèn)，獎(jiǎng)勵(lì)作弊就變得危險(xiǎn)得多。有搜索能力的模型可能在 RL 期間學(xué)會(huì)直接搜索答案。編碼 Agent 可能會(huì)利用代碼倉(cāng)庫(kù)中的未來(lái)信息走捷徑。存在隱性信息泄漏的訓(xùn)練環(huán)境，可以讓模型表現(xiàn)看起來(lái)超越人類，但實(shí)際上只是在訓(xùn)練它作弊。

智能體思考也意味著工具架工程（harness engineering）。核心智能將越來(lái)越多地來(lái)自多個(gè) Agent 如何被組織：一個(gè)規(guī)劃和路由工作的編排者，充當(dāng)領(lǐng)域?qū)＜业膶I(yè) Agent，以及執(zhí)行更窄任務(wù)的子 Agent。未來(lái)是從訓(xùn)練模型到訓(xùn)練 Agent，從訓(xùn)練 Agent 到訓(xùn)練系統(tǒng)的轉(zhuǎn)變。

結(jié)論

更深層的轉(zhuǎn)變是從推理思考到智能體思考：從更長(zhǎng)的思考到為了行動(dòng)而思考。訓(xùn)練的核心對(duì)象已經(jīng)改變了。它不再是單獨(dú)的模型，而是模型加環(huán)境的系統(tǒng)。這改變了「好的思考」意味著什么：在真實(shí)世界約束下維持行動(dòng)的最有用的軌跡，而不是最長(zhǎng)或最可見(jiàn)的那個(gè)。

在推理時(shí)代，優(yōu)勢(shì)來(lái)自更好的 RL 算法、更強(qiáng)的反饋信號(hào)和更可擴(kuò)展的訓(xùn)練管道。在 Agent 時(shí)代，優(yōu)勢(shì)將來(lái)自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的工具架工程，以及讓模型的決策和決策帶來(lái)的后果形成閉環(huán)的能力。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.