網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

離職阿里后林俊旸首發(fā)長(zhǎng)文:告別純推理,AI轉(zhuǎn)入"為行動(dòng)而思考"范式

2026-03-27 07:08:41　來(lái)源: AI先鋒官

北京舉報(bào)

分享至

剛剛，林俊旸在 X 上更新了一篇文章：《從“推理式”思考到“智能體式”思考》，講述 thinking范式的變化。

他認(rèn)為，下一步將是為行動(dòng)而思考，即模型需在與環(huán)境交互中持續(xù)更新計(jì)劃、調(diào)用工具、處理反饋。

訓(xùn)練重心由此也從模型，轉(zhuǎn)向“模型+環(huán)境”的智能體系統(tǒng)。

競(jìng)爭(zhēng)優(yōu)勢(shì)則將從算法，轉(zhuǎn)向來(lái)自環(huán)境設(shè)計(jì)，及訓(xùn)練-服務(wù)解耦與 harness 工程化。

以下為全文：

過(guò)去兩年徹底重塑了我們?cè)u(píng)估模型的方式，以及對(duì)模型的期待。

OpenAI 的 o1 證明了，“思考”可以成為一項(xiàng)一等公民能力——一項(xiàng)專(zhuān)門(mén)訓(xùn)練并向用戶(hù)開(kāi)放的能力。

DeepSeek-R1 則證明，推理式后訓(xùn)練可以在原實(shí)驗(yàn)室之外被復(fù)現(xiàn)和規(guī)模化。

OpenAI 將 o1 描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練、“先思考再回答”的模型；DeepSeek 則將 R1 定位為一款能與 o1 抗衡的開(kāi)源推理模型。

這一階段至關(guān)重要。

但 2025 年上半年的核心議題幾乎都圍繞推理式思考展開(kāi)：如何讓模型在推理時(shí)投入更多計(jì)算、如何用更強(qiáng)的獎(jiǎng)勵(lì)信號(hào)訓(xùn)練它們、如何暴露或控制額外的推理算力消耗。

現(xiàn)在的問(wèn)題是：下一步是什么？我認(rèn)為答案是智能體式思考（agentic thinking）：為行動(dòng)而思考，在與環(huán)境交互的過(guò)程中思考，并根據(jù)來(lái)自現(xiàn)實(shí)世界的反饋持續(xù)更新計(jì)劃。

1. o1 與 R1 的崛起真正教會(huì)了我們什么

第一代推理模型讓我們明白：若想在語(yǔ)言模型中規(guī)模化強(qiáng)化學(xué)習(xí)，就需要確定性、穩(wěn)定且可擴(kuò)展的反饋信號(hào)。

數(shù)學(xué)、代碼、邏輯及其他可驗(yàn)證領(lǐng)域之所以成為核心，是因?yàn)檫@些場(chǎng)景下的獎(jiǎng)勵(lì)信號(hào)遠(yuǎn)強(qiáng)于通用偏好監(jiān)督——它們讓強(qiáng)化學(xué)習(xí)優(yōu)化“正確性”，而非“看似合理”。

基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為在更長(zhǎng)軌跡中推理，強(qiáng)化學(xué)習(xí)就不再是監(jiān)督微調(diào)的輕量附加項(xiàng)，而成為一個(gè)系統(tǒng)級(jí)問(wèn)題：你需要大規(guī)模軌跡采樣、高吞吐量驗(yàn)證、穩(wěn)定的策略更新、高效的采樣機(jī)制。

推理模型的崛起，既是建模層面的突破，也是基礎(chǔ)設(shè)施層面的突破。

OpenAI 將 o1 描述為用強(qiáng)化學(xué)習(xí)訓(xùn)練的推理路線(xiàn)，DeepSeek R1 隨后也印證了這一方向，展示了基于推理的強(qiáng)化學(xué)習(xí)需要多少專(zhuān)門(mén)的算法與基建投入。

第一個(gè)重大轉(zhuǎn)變：從規(guī)模化預(yù)訓(xùn)練，轉(zhuǎn)向?yàn)橥评矶?guī)模化后訓(xùn)練。

2. 真正的問(wèn)題從來(lái)不是“簡(jiǎn)單合并思考與指令模式”

2025 年初，通義千問(wèn)團(tuán)隊(duì)的許多人都懷揣著一個(gè)雄心勃勃的構(gòu)想：理想系統(tǒng)應(yīng)能統(tǒng)一思考與指令模式，支持可調(diào)節(jié)的推理算力消耗——類(lèi)似低/中/高推理檔位的設(shè)計(jì)。

更理想的是，它能從提示詞和上下文自動(dòng)推斷合適的推理量，讓模型自主決定何時(shí)直接回答、何時(shí)需要更長(zhǎng)思考、何時(shí)為真正困難的問(wèn)題投入大量計(jì)算。

從概念上看，這是正確方向。

通義千問(wèn) 3 是最清晰的公開(kāi)嘗試之一：它引入了“混合思考模式”，在一個(gè)模型家族中同時(shí)支持思考與非思考行為，強(qiáng)調(diào)可控的思考預(yù)算，并描述了一個(gè)四階段后訓(xùn)練 pipeline，明確包含在長(zhǎng)思維鏈冷啟動(dòng)與推理強(qiáng)化學(xué)習(xí)之后的“思考模式融合”。

但“合并”說(shuō)起來(lái)容易，做起來(lái)卻很難。

核心難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎寂c指令模式時(shí)，往往首先想到模型層面的兼容性：一個(gè) checkpoint 能否同時(shí)支持兩種模式、一個(gè)對(duì)話(huà)模板能否在兩者間切換、一個(gè)服務(wù)棧能否暴露正確的控制開(kāi)關(guān)。

更深層的問(wèn)題是，兩種模式的數(shù)據(jù)分布與行為目標(biāo)本質(zhì)不同。

我們?cè)谄胶饽Ｐ秃喜⑴c提升后訓(xùn)練數(shù)據(jù)的質(zhì)量、多樣性時(shí)，并未做到盡善盡美。

在這一修正過(guò)程中，我們也密切關(guān)注了用戶(hù)實(shí)際使用思考與指令模式的方式：

? 優(yōu)秀的指令模型通常因直接、簡(jiǎn)潔、格式合規(guī)、低延遲而受青睞，適用于重復(fù)、高吞吐量的企業(yè)任務(wù)，如改寫(xiě)、標(biāo)注、模板化客服、結(jié)構(gòu)化提取、運(yùn)營(yíng) QA 等。

? 優(yōu)秀的思考模型則因在困難問(wèn)題上投入更多 token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠內(nèi)部計(jì)算以顯著提升最終正確性而受獎(jiǎng)勵(lì)。

這兩種行為模式彼此拉扯。

若合并后的數(shù)據(jù)未被精心篩選，結(jié)果通常是兩頭平庸：“思考”行為變得嘈雜、冗余或不夠果斷，而“指令”行為則變得不夠清晰、不夠可靠，且成本高于商業(yè)用戶(hù)的實(shí)際需求。

在實(shí)踐中，分離模式依然更具吸引力。

2025 年下半年，在通義千問(wèn) 3 最初的混合框架之后，2507 系列發(fā)布了獨(dú)立的指令版與思考版更新，包括 30B 和 235B 兩種規(guī)格。

在商業(yè)部署中，大量客戶(hù)仍需要高吞吐量、低成本、高度可控的指令行為來(lái)處理批量任務(wù)——對(duì)這些場(chǎng)景而言，合并模式并無(wú)明顯優(yōu)勢(shì)。

分離路線(xiàn)讓團(tuán)隊(duì)能更清晰地聚焦解決每種模式的數(shù)據(jù)與訓(xùn)練問(wèn)題。

其他實(shí)驗(yàn)室則選擇了相反路徑。

Anthropic 公開(kāi)倡導(dǎo)一體化模型理念：Claude 3.7 Sonnet 作為混合推理模型推出，用戶(hù)可選擇普通響應(yīng)或擴(kuò)展思考，API 用戶(hù)可設(shè)置思考預(yù)算。Anthropic 明確表示，他們認(rèn)為推理應(yīng)是一項(xiàng)集成能力，而非獨(dú)立模型。

GLM-4.5 也公開(kāi)將自身定位為同時(shí)支持思考與非思考模式的混合推理模型，統(tǒng)一了推理、代碼與智能體能力；DeepSeek 隨后也在 V3.1 的“思考/非思考”混合推理中走向了類(lèi)似方向。

關(guān)鍵問(wèn)題在于合并是否自然。如果思考與指令只是被塞進(jìn)同一個(gè) checkpoint，卻仍像兩個(gè)生硬縫合的人格，產(chǎn)品體驗(yàn)依然會(huì)很不自然。

真正成功的合并需要平滑的推理算力消耗光譜：模型應(yīng)能表達(dá)多級(jí)別的思考力度，并理想地自適應(yīng)選擇。

GPT 風(fēng)格的算力控制就指向這一目標(biāo)：基于計(jì)算量的策略，而非二元開(kāi)關(guān)。

3. 為何 Anthropic 的方向是一次有益的修正

Anthropic 對(duì) Claude 3.7 與 Claude 4 的公開(kāi)表述十分克制：他們強(qiáng)調(diào)集成推理、用戶(hù)可控的思考預(yù)算、真實(shí)世界任務(wù)、代碼質(zhì)量，以及后來(lái)在擴(kuò)展思考中使用工具的能力。

Claude 3.7 被定位為支持可控預(yù)算的混合推理模型；Claude 4 進(jìn)一步擴(kuò)展，允許推理與工具使用交錯(cuò)進(jìn)行，同時(shí) Anthropic 強(qiáng)調(diào)編碼、長(zhǎng)時(shí)任務(wù)與智能體工作流是核心目標(biāo)。

生成更長(zhǎng)的推理軌跡，并不會(huì)自動(dòng)讓模型變得更聰明。在很多情況下，過(guò)度可見(jiàn)的推理恰恰暴露了資源分配的低效。

如果模型試圖用同樣冗長(zhǎng)的方式思考一切，可能是在優(yōu)先級(jí)排序、信息壓縮或行動(dòng)執(zhí)行上存在缺陷。Anthropic 的發(fā)展軌跡指向了一種更自律的觀點(diǎn)：思考應(yīng)服務(wù)于目標(biāo)任務(wù)。

若目標(biāo)是編碼，思考應(yīng)幫助導(dǎo)航代碼庫(kù)、規(guī)劃、拆解、錯(cuò)誤恢復(fù)與工具編排；若目標(biāo)是智能體工作流，思考應(yīng)提升長(zhǎng)時(shí)執(zhí)行質(zhì)量，而非產(chǎn)出華麗的中間文本。

這種對(duì)目標(biāo)導(dǎo)向?qū)嵱眯缘膹?qiáng)調(diào)，指向了一個(gè)更宏大的趨勢(shì)：我們正從訓(xùn)練模型的時(shí)代邁向訓(xùn)練智能體的時(shí)代。

我們?cè)谕x千問(wèn) 3 的博客中明確寫(xiě)道：“我們正從聚焦訓(xùn)練模型的時(shí)代，轉(zhuǎn)向以訓(xùn)練智能體為中心的時(shí)代”，并將未來(lái)強(qiáng)化學(xué)習(xí)的進(jìn)步與長(zhǎng)時(shí)推理的環(huán)境反饋綁定。

智能體是一個(gè)能夠制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修正策略、并在長(zhǎng)時(shí)尺度上持續(xù)推進(jìn)的系統(tǒng)——它的核心定義是與世界的閉環(huán)交互。

4. “智能體式思考”真正意味著什么

智能體式思考是一個(gè)截然不同的優(yōu)化目標(biāo)。

推理式思考通常以最終答案前的內(nèi)部思考質(zhì)量為評(píng)判標(biāo)準(zhǔn)：模型能否證明定理、寫(xiě)出證明、生成正確代碼，或通過(guò)基準(zhǔn)測(cè)試。而智能體式思考的核心是：模型能否在與環(huán)境交互的過(guò)程中持續(xù)取得進(jìn)展。

核心問(wèn)題從“模型能否思考足夠久？”轉(zhuǎn)變?yōu)椤澳Ｐ湍芊褚灾斡行袆?dòng)的方式思考？”。

智能體式思考必須處理純推理模型大多可以回避的幾個(gè)問(wèn)題：

? 決定何時(shí)停止思考并采取行動(dòng)

? 選擇調(diào)用哪個(gè)工具、以何種順序調(diào)用

? 整合來(lái)自環(huán)境的噪聲或部分觀測(cè)信息

? 在失敗后修正計(jì)劃

? 在多輪對(duì)話(huà)與多次工具調(diào)用中保持連貫性

智能體式思考，本質(zhì)是通過(guò)行動(dòng)進(jìn)行推理的模型。

5. 為何智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施更具挑戰(zhàn)

一旦目標(biāo)從解決基準(zhǔn)問(wèn)題轉(zhuǎn)向解決交互任務(wù)，強(qiáng)化學(xué)習(xí)技術(shù)棧就會(huì)發(fā)生變化。傳統(tǒng)推理強(qiáng)化學(xué)習(xí)所用的基礎(chǔ)設(shè)施已不再足夠。

在推理強(qiáng)化學(xué)習(xí)中，你通常可以將軌跡采樣視為相對(duì)自包含的過(guò)程，評(píng)估器也較為清晰。而在智能體強(qiáng)化學(xué)習(xí)中，策略被嵌入到一個(gè)更大的“ harness”中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng)與編排框架。

環(huán)境不再是靜態(tài)驗(yàn)證器，而是訓(xùn)練系統(tǒng)的一部分。

這催生了新的系統(tǒng)要求：訓(xùn)練與推理必須更清晰地解耦。若沒(méi)有這種解耦，軌跡采樣吞吐量會(huì)急劇下降。

試想一個(gè)編碼智能體：它必須在實(shí)時(shí)測(cè)試 harness 中執(zhí)行生成的代碼——推理端會(huì)因等待執(zhí)行反饋而停滯，訓(xùn)練端則因缺少完成的軌跡而“饑餓”，整個(gè) pipeline 的 GPU 利用率遠(yuǎn)低于傳統(tǒng)推理強(qiáng)化學(xué)習(xí)的預(yù)期。

工具延遲、部分可觀測(cè)性與有狀態(tài)環(huán)境會(huì)進(jìn)一步放大這些低效問(wèn)題，結(jié)果是實(shí)驗(yàn)進(jìn)展緩慢，在達(dá)到目標(biāo)能力水平前就變得痛苦不堪。

環(huán)境本身也成為了一等公民的研究對(duì)象。

在監(jiān)督微調(diào)時(shí)代，我們癡迷于數(shù)據(jù)多樣性；在智能體時(shí)代，我們應(yīng)癡迷于環(huán)境質(zhì)量：穩(wěn)定性、真實(shí)性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富性、抗利用性與軌跡生成可擴(kuò)展性。

環(huán)境構(gòu)建已開(kāi)始成為一個(gè)真正的創(chuàng)業(yè)賽道，而非副業(yè)項(xiàng)目。如果智能體要在類(lèi)生產(chǎn)環(huán)境中運(yùn)行，環(huán)境就是核心能力棧的一部分。

6. 下一個(gè)前沿是更可用的思考

我預(yù)計(jì)，智能體式思考將成為主導(dǎo)的思考形式。

它最終可能會(huì)取代大部分舊式靜態(tài)獨(dú)白式推理思考——那些過(guò)長(zhǎng)、孤立的內(nèi)部軌跡，試圖通過(guò)輸出越來(lái)越多的文本來(lái)彌補(bǔ)交互的缺失。

即便在極難的數(shù)學(xué)或編碼任務(wù)中，真正先進(jìn)的系統(tǒng)也應(yīng)有權(quán)進(jìn)行搜索、模擬、執(zhí)行、檢查、驗(yàn)證與修正。目標(biāo)是穩(wěn)健且高效地解決問(wèn)題。

訓(xùn)練這類(lèi)系統(tǒng)的最大挑戰(zhàn)是獎(jiǎng)勵(lì)作弊（reward hacking）。一旦模型獲得有意義的工具訪(fǎng)問(wèn)權(quán)限，獎(jiǎng)勵(lì)作弊的風(fēng)險(xiǎn)會(huì)大幅升高：

? 具備搜索能力的模型可能在強(qiáng)化學(xué)習(xí)中學(xué)會(huì)直接查找答案；

? 編碼智能體可能利用倉(cāng)庫(kù)中的未來(lái)信息、濫用日志，或發(fā)現(xiàn)使任務(wù)失效的捷徑；

? 存在信息泄露的環(huán)境可能讓策略看起來(lái)“超人類(lèi)”，實(shí)則訓(xùn)練它作弊。

這正是智能體時(shí)代比推理時(shí)代更微妙的地方：更好的工具讓模型更有用，但也擴(kuò)大了虛假優(yōu)化的攻擊面。

我們可以預(yù)期，下一個(gè)嚴(yán)肅的研究瓶頸將來(lái)自環(huán)境設(shè)計(jì)、評(píng)估器魯棒性、反作弊協(xié)議，以及策略與世界之間更具原則性的接口。

盡管如此，方向是明確的：工具賦能的思考遠(yuǎn)比孤立思考更有用，也更有機(jī)會(huì)提升真實(shí)生產(chǎn)力。

智能體式思考也意味著harness 工程化。核心智能將越來(lái)越多地來(lái)自多智能體的組織方式——一個(gè)負(fù)責(zé)規(guī)劃與任務(wù)路由的編排器、像領(lǐng)域?qū)＜乙粯有袆?dòng)的專(zhuān)業(yè)智能體，以及執(zhí)行更窄任務(wù)的子智能體（幫助控制上下文、避免污染、保持不同推理層級(jí)的分離）。

未來(lái)的轉(zhuǎn)變是，從訓(xùn)練模型到訓(xùn)練智能體，再?gòu)挠?xùn)練智能體到訓(xùn)練系統(tǒng)。

結(jié)論

推理浪潮的第一階段確立了一個(gè)重要事實(shí)：當(dāng)反饋信號(hào)可靠、基礎(chǔ)設(shè)施能支撐時(shí)，語(yǔ)言模型之上的強(qiáng)化學(xué)習(xí)可以產(chǎn)生質(zhì)的更強(qiáng)認(rèn)知。

更深層的轉(zhuǎn)變是從推理式思考走向智能體式思考：從“思考更久”轉(zhuǎn)向“為行動(dòng)而思考”。

訓(xùn)練的核心對(duì)象發(fā)生了變化——它不再是單純的模型，而是模型+環(huán)境系統(tǒng)。更具體地說(shuō)，是智能體及其周?chē)?harness。

這改變了最重要的研究對(duì)象：模型架構(gòu)與訓(xùn)練數(shù)據(jù)固然重要，但環(huán)境設(shè)計(jì)、軌跡采樣基礎(chǔ)設(shè)施、評(píng)估器魯棒性，以及多智能體協(xié)作的接口也同樣關(guān)鍵。

它也改變了“好的思考”的定義：支撐現(xiàn)實(shí)約束下有效行動(dòng)的最有用軌跡，而非最長(zhǎng)或最可見(jiàn)的軌跡。

這同樣改變了競(jìng)爭(zhēng)優(yōu)勢(shì)的來(lái)源：

? 在推理時(shí)代，優(yōu)勢(shì)來(lái)自更好的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的獎(jiǎng)勵(lì)信號(hào)與更可擴(kuò)展的訓(xùn)練 pipeline；

? 在智能體時(shí)代，優(yōu)勢(shì)將來(lái)自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的 harness 工程能力，以及閉合模型決策與其后果之間循環(huán)的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.